Testen und Bewerten fremdsprachlicher Kompetenzen - Barbara Hinger - E-Book

Testen und Bewerten fremdsprachlicher Kompetenzen E-Book

Barbara Hinger

0,0

Beschreibung

Das Interesse an Formen der Bewertung im modernen, kompetenzorientierten Fremdsprachenunterricht (FSU) ist in den vergangenen Jahren deutlich gestiegen; dies gilt sowohl für standardisierte Abiturprüfungen (Qualifikationsprüfungen) als auch für Sprachstandsüberprüfungen (Klausur- und Schularbeiten) im Klassenzimmer. Das Studienbuch bietet eine auf der Sprachtestforschung basierende fundierte Einführung und mittels Anwendungsbeispielen illustrierte, praxisbezogene und sprachenübergreifende Darstellung und Diskussion. Lehrpersonen werden mit den theoretischen Prinzipien des Überprüfens und Bewertens vertraut und erlangen gleichzeitig konkretes Beispiel- und Umsetzungswissen, um Aufgaben- und Testformate für die verschiedenen sprachlichen Fertigkeiten und Kompetenzen selbst erstellen und bewerten zu können. Am Ende eines jeden Kapitels bietet das Buch Hinweise auf ein- und weiterführende Fachliteratur und stellt Arbeitsfragen, anhand derer der Kapitelinhalt memoriert und das erlesene Grundverständnis argumentativ ausgebaut werden kann. Damit kann das Studienbuch von Studierenden des Lehramts in Ausbildung, Referendar/innen, Unterrichtspraktikant/innen wie auch von Lehrkräften in der Praxis gleichermaßen genutzt und eingesetzt werden.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 427

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Barbara Hinger / Wolfgang Stadler

unter Mitarbeit von Katrin Schmiderer

Testen und Bewerten fremdsprachlicher Kompetenzen

mit Beiträgen von Martin M. Bauer, Kathrin Eberharter, Carmen Konzett-Firth, Benjamin Kremmel, Matthias Zehentner

A. Francke Verlag Tübingen

 

 

© 2018 • Narr Francke Attempto Verlag GmbH + Co. KG Dischingerweg 5 • D-72070 Tübingen www.francke.de • [email protected]

 

Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

 

E-Book-Produktion: pagina GmbH, Tübingen

 

ePub-ISBN 978-3-8233-0067-0

Inhalt

AbkürzungsverzeichnisEinleitung1. Ein historischer Einblick in das Testen und Bewerten von Fremdsprachen2. Der GeR und die Orientierung am sprachlichen Output der Lernenden3. Die Rolle des Fehlers in der Aneignung von Sprachen3.1 Fehler im Lernkontext3.2 Fehler in Testsituationen4. Testprinzipien4.1 Objektivität, Reliabilität, Validität4.1.1 Objektivität4.1.2 Reliabilität4.1.3 Validität4.2 Authentizität, Washback, Praktikabilität4.2.1 Authentizität4.2.2 Washback4.2.3 Praktikabilität4.3 Neuere Konzeptionen5. Die Erstellung von Testaufgaben: Der Testentwicklungszyklus5.1 Testzweck5.2 Konstruktdefinition5.3 Testspezifikationen und Aufgabenerstellung5.4 Evaluierung, Prototypisierung und Pilotierung5.5 Qualitätssicherung in der Testkonstruktion5.6 Schlussfolgerungen6. Rezeptive Fertigkeiten überprüfen und bewerten6.1 Die rezeptiven Fertigkeiten Lese- und Hörverstehen6.1.1 Lese- und Hörverstehensziele6.1.2 Lese- und Hörstrategien6.2 Rezeptive Fertigkeiten überprüfen6.2.1 Gemeinsamkeiten und Unterschiede der Überprüfung von Lese- und Hörverstehen6.3 Aufgabenformate für die Überprüfung rezeptiver Fertigkeiten6.4 Integrierte Fertigkeiten überprüfen7. Produktive Fertigkeiten überprüfen und bewerten7.1 Die Fertigkeit Schreiben7.1.1 Die Fertigkeit Schreiben überprüfen7.1.2 Aufgabenformate für das Überprüfen von Schreiben7.2 Die Fertigkeit Sprechen7.2.1 Die Fertigkeit Sprechen überprüfen7.2.2 Aufgabenformate für das Überprüfen von Sprechen7.2.3 InterlokutorInnenverhalten7.3 Bewerten von produktiven Fertigkeiten8. Sprachliche Mittel überprüfen und bewerten8.1 Grammatik und Wortschatz8.1.1 Konstrukt von Grammatik8.1.2 Aufgabenformate zur Überprüfung von Grammatik im sprachlichen Kontext8.1.3 Konstrukt von Wortschatz8.1.4 Aufgabenformate zur Überprüfung von Wortschatz8.2 Pragmatische und soziolinguistische Besonderheiten8.2.1 Pragmalinguistisches und soziopragmatisches Konstrukt8.2.2 Pragmalinguistische, soziopragmatische und interkulturelle Sprachbewusstheit8.2.3 Aufgabenformate zur Überprüfung pragmalinguistischer und soziopragmatischer Kompetenz9. Übersetzen und Interpretieren: Testen und Bewerten im Latein- und Griechischunterricht9.1 Konstrukt Übersetzen9.2 Umsetzung in der Praxis9.3 Konstrukt Interpretieren10. Assessment for, assessment of und assessment as learning10.1 Funktionen der Leistungsfeststellung und -beurteilung10.2 Beurteilungs- und Bewertungstypen10.3 Dynamisches Testen und Bewerten als alternativer Beurteilungstyp10.4 Methoden des dynamischen Testens und Bewertens10.5 Dynamisches Testen und Bewerten in der Schulpraxis11. Leistungsbewertung im schulischen KontextLiteraturverzeichnisSachregister

Abkürzungsverzeichnis

AHS

Allgemeinbildende Höhere Schulen, Österreich

ALTE

The Association of Language Testers in Europe

BHS

Berufsbildende Höhere Schulen, Österreich

BIFIE

Bundesinstitut für Bildungsforschung, Innovation und Entwicklung, Österreich

BMB

Bundesministerium für Bildung, Österreich

BMBF

Bundesministerium für Bildung und Frauen, Österreich

BMBWK

Bundesministerium für Bildung, Wissenschaft und Kunst, Österreich

BMUKK

Bundesministerium für Unterricht, Kunst und Kultur, Österreich

DTB

Dynamisches Testen und Bewerten

EALTA

European Association of Language Testing and Assessment

EPOSA

Europäisches Portfolio für Sprachlehrende in Ausbildung

ESP

Europäisches Sprachenportfolio

GeR

Gemeinsamer europäischer Referenzrahmen für Sprachen

IMoF

Innsbrucker Modell der Fremdsprachendidaktik

KMK

Kultusministerkonferenz

LAL

language assessment literacy

LBVO

Leistungsbeurteilungsverordnung

SRDP

Standardisierte kompetenzorientierte Reife- und Diplomprüfung, Österreich

ZNE

Zone der nächsten Entwicklung

Einleitung

Das vorliegende Studienbuch ist an Lehramtsstudierende in Ausbildung sowie an ReferendarInnen, Schul- und UnterrichtspraktikantInnen in Deutschland und Österreich, der Schweiz und Südtirol gerichtet, die an einer Universität und einer Hochschule Fremdsprachen oder die klassischen Sprachen Latein oder Griechisch studieren. Entstanden ist das Studienbuch an der Universität Innsbruck. Hier werden am sog. Innsbrucker Modell der Fremdsprachendidaktik (IMoF) künftige FremdsprachenlehrerInnen seit dem Studienjahr 2001/2002 sprachenübergreifend und sprachspezifisch ausgebildet. IMoF widmet sich schulischer Mehrsprachigkeit und multilingualen Herangehensweisen in schulischen Kontexten und wird über Innsbruck und Österreich hinaus als Meilenstein einer sprachenintegrierenden fachdidaktischen Ausbildung gewürdigt (Krumm & Reich 2013; s. auch BMUKK & BMWF2008, 48f.), die den Rahmen monolingualer Studiengänge hinter sich lässt und sprachenverbindende sowie mehrsprachigkeitsdidaktische Ansätze in den Fokus rückt.

Das Modell hat seine Anfänge im Jahr 2000, als ein neuer Studienplan für die Ausbildung künftiger FremdsprachenlehrerInnen an der Universität Innsbruck zu konzipieren war. Es stellte sich für den fremdsprachlichen Unterricht die Frage, ob es Theorien, Grundlagen und Prinzipien gibt, die jeweils nur auf eine Zielsprache zutreffen, oder ob nicht vielmehr Theorien, Grundlagen und Prinzipien der sprachdidaktischen Vermittlung allen Zielsprachen gemein sind. Auf Initiative von Barbara Hinger kamen FremdsprachendidaktikerInnen der Institute für Anglistik, Romanistik und Slawistik bei Diskussionen am Runden Tisch schließlich überein, dass Synergien nicht von der Hand zu weisen sind: Gemeinsame sprachenübergreifende Theorien und Grundlagen des Unterrichtens moderner Sprachen sind deutlich auszumachen, diese wären aber auch auf einzelsprachliche Inhalte zu spezifizieren, um den Unterricht in einer konkreten Zielsprache adäquat umsetzen zu können. Diese zweifache Perspektive, gebündelt in der Kombination von sprachenübergreifender und sprachspezifischer Fremdsprachendidaktik, sollte sowohl das Erarbeiten theoretischer Ansätze und empirischer Forschungsergebnisse als auch deren reflektierte Übertragung in den schulischen Alltag gewährleisten.

Dieselbe Herangehensweise wurde auf Anregung von Wolfgang Stadler auf den Bereich des Prüfens und Bewertens von Fremdsprachen übertragen und in das Curriculum integriert: Bis dahin war dieses Gebiet in der Ausbildung kaum vorgesehen, obwohl Lehrpersonen ihr gesamtes Berufsleben hindurch die sprachlichen Leistungen von SchülerInnen zu bewerten haben (vgl. Arras 2009, 169, die von der Beurteilung fremdsprachlicher Leistungen als dem „täglichen Brot“ aller Lehrkräfte spricht), Klassen-/Schularbeiten, Tests und mündliche Prüfungen erstellen, deren Ergebnisse auswerten und auf der Basis dieser sowie formativ bewerteter Leistungen zu einer summativen Gesamtbeurteilung für jede/jeden SchülerIn am Ende eines Lernjahres gelangen müssen. Die dafür nötigen Kompetenzen (assessment literacy) sollten in entsprechenden Lehrveranstaltungen erworben werden. Diese Argumente führten dazu, auch den Bereich des Testens und Bewertens fremdsprachlicher Kompetenzen in das Konzept der neuen Lehramtsausbildung aufzunehmen und eine sprachenübergreifende, theoriebasierte Lehrveranstaltung „Testen und Bewerten“ zu konzipieren, die von sprachspezifischen und schulbezogenen Begleitkursen flankiert wird.

2002 wurde die erste sprachenübergreifende „Einführung in die Didaktik des Fremdsprachenunterrichts“ im team teaching-Verfahren umgesetzt; für die sprachspezifischen Begleitkurse konnten schulische Lehrpersonen gewonnen werden, die ihre praktische Erfahrung einfließen ließen und sich durch die Kooperation mit Lehrenden an der Universität auch weiter professionalisieren konnten. Darüber hinaus wurde IMoF Motor für eine zuvor nur marginal existierende Forschung in der Fremdsprachendidaktik an der Universität Innsbruck1. Bereits 2002, im ersten Semester der Durchführung, wurde das Modell mit dem „Europasiegel für innovative Sprachenprojekte“ ausgezeichnet.

2015 wurde – im Zuge der Neukonzipierung der Curricula als Bachelorstudiengänge – die Präsenzzeit für die Lehrveranstaltung „Einführung in das Testen und Bewerten von Fremdsprachen“ erhöht. Diese Erweiterung basiert in nicht unwesentlichem Ausmaß auf dem Feedback von Studierenden, die die Bedeutung dieser Thematik für ihr späteres Berufsfeld erkannten und in Befragungen entsprechend hervorhoben. In der Dissertation von Hirzinger-Unterrainer (2013), die IMoF aus Sicht der Studierenden evaluierte, konnte für das Abschlussmodul „Testen und Bewerten“ Folgendes festgehalten werden:

Das ganze Abschlussmodul erachtet [eine Studierende] als sehr wichtig, sie habe sich „[…] nämlich nie die Frage gestellt, wie stelle ich einen Test zusammen“ … Die Lehrveranstaltung, aber vor allem das [begleitende] Korrekturpraktikum, habe sie zum Nachdenken über geeignetes Testen und Bewerten angeregt. Das Wissen aus diesem Modul erachte sie für ihren späteren Beruf als sehr bedeutend. (ebd., 293)

Dass adäquates Heranführen an Prinzipien des Testens und Bewertens fremdsprachlicher Leistungen grundsätzlich von Studierenden geschätzt wird und sie diesem Bereich in ihrer Ausbildung großen Wert beimessen, zeigt folgendes Zitat:

[Studierende geben] den Wunsch an, durch dieses Modul gegen Ende des Studiums Sicherheit in der Notengebung zu erlangen. […] Da die Studierenden eine große Unsicherheit im Bereich Testen und Bewerten spüren, sind sie für die vermittelten Hilfestellungen dankbar. (ebd., 356)

In den Augen der beteiligten FremdsprachendidaktikerInnen hat die Beschäftigung mit dem Testen und Bewerten fremdsprachlicher Kompetenzen auch ihre eigene Professionalisierung vorangetrieben und das Teambewusstsein gestärkt: So absolvierten die Verantwortlichen der sprachspezifischen Begleitworkshops gemeinsam eine Fortbildung im kommunikativen Sprachentesten an der Lancaster University in England. Damit entstand neben einer positiven Gruppendynamik im Erwerb und der Erweiterung ihrer Expertise auch eine Vertiefung ihrer Sprachbewertungskompetenz (language assessment literacy), die mittlerweile international in unterschiedlichsten Kontexten gefordert wird (vgl. u.a. Harsch 2015, Harding & Kremmel 2016). Einige Teammitglieder sowie junge IMoF-AbsolventInnen erwarben einen ebenfalls von der Lancaster University angebotenen Online-Master in Language Testing, andere haben an Ausbildungen in Item Writer Training-Seminaren teilgenommen und sind ExpertInnen für die Erstellung kriterienorientierter Aufgabenformate im Rahmen der mittlerweile flächendeckend an österreichischen Schulen der Sekundarstufe II eingeführten und gesetzlich verankerten standardisierten, teilzentralen und kompetenzorientierten Reife- und Diplomprüfung (SRDP) in den Fremdsprachenfächern geworden. Carol Spöttl, die zu Beginn die einzige Expertin im Sprachentesten an der Universität Innsbruck war, etablierte eine Language Testing Research Group Innsbruck (LTRGI2), im Rahmen derer Forschungsprojekte lukriert, junge AbsolventInnen in der Sprachtestforschung verankert und nationale wie internationale Vernetzungen geschaffen werden konnten: Erwähnt sei an dieser Stelle die Organisation der 9. Tagung von EALTA-European Association of Language Testing and Assessment2012 und die Umsetzung der 4. Summer School von EALTA2016.

Das vorliegende Buch spiegelt zu einem großen Teil Inhalte des IMoF-Moduls „Testen und Bewerten“ wider, geht aber in einigen Kapiteln darüber hinaus. Ausbildungsinhalte beziehen sich auf unterschiedliche Funktionen sprachlicher Leistungsbeurteilung und ihre gesetzlichen Vorgaben im schulischen Kontext, auf die für das Überprüfen von Sprachen wesentlichen Testgütekriterien, auf Konstruktdefinitionen für sprachliche Fertigkeiten und sprachliche Mittel oder auf kontinuierliches Bewerten sprachlicher Leistungen. Die Lehrveranstaltung wird im sprachenübergreifenden Team geplant und teilweise gemeinsam, teilweise individuell umgesetzt. Konkret bedeutet dies, dass Studierende das Erstellen adäquater Aufgabenformate für die unterschiedlichen sprachlichen Fertigkeiten und sprachlichen Mittel, bezogen auf verschiedene Sprachniveaus, ebenso erlernen wie das Erstellen von Klassen- und Schularbeiten für bestimmte Lernjahre. Indem sie verschiedene Bewertungsarten und -raster kritisch reflektieren und gemeinsam diskutieren, wird der für das Verfassen von Prüfungsaufgaben wichtige kooperative Charakter betont und für Studierende bereits im Studium konkret erfahrbar. Die spätere Zusammenarbeit von Fremdsprachenlehrpersonen an der Schule soll so im Studium präjudiziert und erlernt werden. Ob dies durch die IMoF-Ausbildung in der späteren Unterrichtspraxis der AbsolventInnen auch gelingt, können nur entsprechende Langzeitstudien zeigen. Jenseits von IMoF bleibt die Ausbildung für schulische Mehrsprachigkeit sowie für Sprachentesten und -bewerten – auch international – weiterhin ein Desiderat (vgl. u.a. Harding & Kremmel 2016; Vogt & Tsagari 2014).

Aufgrund der mehrsprachigen Ausrichtung von IMoF finden sich in diesem Buch Beispiele aus allen Sprachen, die im Rahmen des IMoF unterrichtet werden: Englisch, Französisch, Italienisch, Russisch, Spanisch, Latein und Griechisch. Damit soll aber auch verdeutlicht werden, dass die Grundlagen und Prinzipien des Sprachentestens in gleichem Maße auf Fremdsprachen zutreffen. Die einzelnen Kapitel des Studienbuchs eignen sich zudem als theoretische Grundlage für Kurse in Fort- und Weiterbildungsveranstaltungen, die sich Themen der Leistungsmessung und -beurteilung widmen.

Wenn im Studienbuch der Einfachheit halber meist von ‚Tests‘/‚vom Testen‘ gesprochen wird, so sei an dieser Stelle angemerkt, dass damit unterschiedliche Formen der Leistungsüberprüfung gemeint sein können, wie etwa im schulischen Kontext Klassen-/Schularbeiten, Klausuren, mündliche Prüfungen etc. Genauso können diese Begriffe aber auch für standardisierte nationale und internationale Tests stehen bzw. Abitur- und Reifeprüfungen meinen. Angemerkt sei, dass der Gemeinsame europäische Referenzrahmen für Sprachen (GeR) in seinem Untertitel neben den Tätigkeiten ‚lernen‘ und ‚lehren‘ auch von ‚beurteilen‘ (im Original: learning, teaching, assessment) spricht und in Kapitel 9 „Beurteilen und Bewerten“ (im Englischen steht dafür der Begriff assessment) wesentliche Inhalte anführt, die „verschiedenen Funktionen des Prüfens und Beurteilens sowie entsprechenden Beurteilungs- und Bewertungsverfahren“ gewidmet sind (Europarat 2001, 12). Auch in Kapitel 9 des GeR ist die Terminologie nicht einheitlich: ‚prüfen‘, ‚beurteilen‘, ‚bewerten‘ werden nebeneinander verwendet, genauso wie die Begriffe ‚testen‘, ‚prüfen‘, ‚bewerten‘, ‚beurteilen‘, ‚evaluieren‘ alltagssprachlich oft synonymisch verwendet werden, wenn z. B. von der Messung sprachlicher Kompetenz die Rede ist. ‚Testen‘ (to test) ist zweifellos der engste Begriff (examining someone’s knowledge), ‚beurteilen‘ und ‚bewerten‘ (to assess) fassen die Tätigkeit der Leistungsüberprüfung weiter (the goal of assessment is to make improvements) und der Begriff ‚evaluieren‘ (to evaluate) hat die umfassendste Bedeutung (making (institutional) judgements based on criteria and evidence) (vgl. https://tinyurl.com/y82vcae2 [21.09.2017]).

Am Beginn eines jeden Kapitels im Buch finden sich Kann-Beschreibungen nach dem Muster des Europäischen Portfolios für Sprachlehrende in Ausbildung (EPOSA) (Newby et al. 2007), die einen Ausblick darüber geben, was den/die LeserIn im Kapitel erwartet, und die Ziele darlegen, wozu der/die LeserIn nach genauer Lektüre und Bearbeitung der am Ende eines jeden Kapitels angegebenen Arbeitsaufträge und Diskussionsfragen imstande sein soll. Die Tipps zu weiterführender Lektüre am Ende eines Kapitels dienen der Vertiefung der ausgeführten Inhalte und können genützt werden, um sich weiteres Wissen anzueignen. Die gesamte Literatur findet sich am Ende des Buches. Zudem sei an dieser Stelle auf den Language Testing Bytes Podcast verwiesen, in dem Glenn Fulcher begleitend zur Zeitschrift Language Testing aktuelle Fragen der Sprachtestforschung mit ExpertInnen diskutiert. Der Podcast erscheint halbjährlich und ist unter https://tinyurl.com/ycdpgjvr (21.09.2017) oder über iTunes verfügbar.

Marginalien am Textrand dienen der Strukturierung des Gelesenen; anhand dieser benutzerInnenorientierten Punkte kann sich der/die LeserIn – rekapitulierend in Form eines self-assessment – orientieren, ob er/sie die wichtigsten Inhalte eines Kapitels nachvollziehen und diese auch kurz erläutern kann.

Das Buch umfasst 11 Kapitel. Es wurde mit dem Ziel erstellt, auch im deutschsprachigen Raum ein Standardwerk zu „Testen und Bewerten fremdsprachlicher Kompetenzen“ zur Verfügung zu haben, das gleichermaßen von Lehrenden und Lernenden an Universitäten sowie an Schulen genutzt werden kann, um die immer deutlicher eingeforderte „Bewertungskompetenz“ einzelner stakeholder im Bereich fremdsprachlicher Leistungsmessung und -beurteilung zu stärken bzw. zu fördern.

In Kapitel 1 werden ein kurzer, historischer Überblick über die Entwicklung des Testens und Bewertens gegeben und drei Perioden des Sprachentestens vorgestellt, die als Beispiele für die Entwicklung von subjektiven, normorientierten Tests hin zu einer objektiven, validen und an Kriterien orientierten Bewertung dienen. In Kapitel 2 wird der GeR als kommunikativer, kompetenz- und handlungsorientierter Referenzrahmen des Europarates präsentiert, sein Entstehungskontext beleuchtet, die Niveaustufen A1 bis C2 beschrieben und deren Bedeutung für das Testen und Bewerten von fremdsprachlichen Leistungen kritisch betrachtet. Die Hinwendung des GeR zu Sprachverwendenden als kommunikative, sozial Agierende und einer damit verbundenen positiven Sichtweise des Fehlers als inhärentes Kennzeichen von Lernersprache macht es erforderlich, die Rolle des Fehlers im Fremdsprachenunterricht neu zu überdenken, was in Kapitel 3 erfolgt.

In Kapitel 4 werden die Testgütekriterien in zwei Teilen vorgestellt: Im ersten Teil werden Arten der Objektivität, Reliabilität und Validität erklärt und beschrieben, wobei vor allem auf das zentrale Kriterium der Konstruktvalidität und den sich wandelnden Interpretationen der Validität bzw. des Prozesses der Validierung fokussiert wird. Im zweiten Teil wird auf die Prinzipien Authentizität, Washback und Praktikabilität eingegangen, der Bezug zwischen Testaufgaben und real-world tasks diskutiert, die Auswirkung von Tests auf Lehrende, Lernende, Unterricht und Bildungssystem illustriert sowie eine Kosten-Nutzen-Rechnung hinsichtlich Testressourcen aufgestellt. Der Testentwicklungszyklus wird in Kapitel 5 anhand von standardisierten Tests beschrieben; Begriffe wie Testzweck, Testarten, Testspezifikationen, text mapping, Prototypisierung, Pilotierung, Feldtestung, Benchmarking und Standard-Setting werden definiert und näher erklärt, um u.a. auf die hohe ethische Verantwortung im Bereich des Testens und Bewertens einzugehen.

Kapitel 6 widmet sich der Überprüfung rezeptiver Lese- und Hörverstehensleistungen. Anhand je eines konkreten Lese- (Nold & Willenberg) bzw. Hörverstehensmodells (Field) werden die einzelnen kognitiven Komponenten der nicht direkt beobachtbaren Leseverstehens- bzw. Hörverstehensprozesse aufgezeigt und vier prominente Lese- und Hörverstehensziele mit Bezug auf die GeR-Skalen erläutert. Es wird auf wesentliche Gemeinsamkeiten und Unterschiede bei der Überprüfung von Lese- und Hörverstehen hingewiesen, Testformate werden präsentiert, die sich zur Überprüfung eines Produktes, resultierend aus einer Lese- bzw. Hörverständnisaufgabe, eignen. Am Schluss steht ein Vorschlag, wie rezeptive Fertigkeiten als Basis für integrierte Testaufgaben genutzt werden können und welche Schwierigkeiten sich dadurch bei der Beurteilung ergeben.

In Kapitel 7 wird für die Beschreibung, wie produktive Fertigkeiten getestet werden können, ein ähnlicher Aufbau wie in Kapitel 6 gewählt. Das Konstrukt wird anhand je eines Modells (Shaw & Weir für Schreiben; Levelt für Sprechen) dargelegt, die GeR-Skalen für (monologische) Produktion und (dialogische) Interaktion werden in der Testanwendung konkretisiert. Außerdem werden Richtlinien vorgestellt für die Erstellung von lebensnahen, kontextualisierten und situationsgebundenen Testaufgaben mit unterschiedlichen Inputs (Texten, Bildern, Grafiken etc.) zur Überprüfung der Fertigkeit Schreiben (z.B. hinsichtlich des Einsatzes von Operatoren) bzw. für ein angemessenes InterlokutorInnen- respektive AssessorInnenverhalten bei der Überprüfung der Fertigkeit Sprechen. Dabei wird auf die Nutzung von holistischen und analytischen Bewertungsrastern im Sinne einer erhöhten Interrater-Reliabilität Bezug genommen; Vor- und Nachteile solcher Raster werden aufgezeigt.

Kapitel 8 widmet sich der Überprüfung sprachlicher Mittel in den linguistischen Kompetenzfeldern Lexik, Grammatik und Soziopragmatik. Grammatikalische Kompetenz wird als Teilkompetenz einer funktional-kommunikativen Kompetenz verstanden, für die angemessene Testformate präsentiert werden. Lexik als wesentlicher Teil einer kommunikativen Verstehens- und Produktionsaktivität wird analog zum GeR einerseits mit Spektrum (Wortschatzbreite) und andererseits mit Beherrschung (Wortschatztiefe) assoziiert. In den Aufgabenformaten wird u.a. auf die Gebundenheit an einen Kontext (C-Test, gap filling) bzw. Losgelöstheit von einem Kontext (z.B. Übersetzungen) und die damit verbundenen Problematiken eingegangen. Soziopragmatische Kompetenz wird als wesentliche Komponente eines handlungsorientierten, kommunikativen und interkulturellen Fremdsprachenunterrichts erachtet, der im Unterricht mehr Bedeutung zukommen muss. Anhand des GeR wird an das wandelbare Konstrukt der Soziopragmatik angeknüpft, weil sich sprachliche und kulturelle Gegebenheiten in unserer globalen und digitalen Welt ständig verändern. Es werden Aufgabenformate zur Überprüfung soziopragmatischer Kompetenz unterbreitet, die in der Forschung Anwendung finden und für einen authentischen Einsatz in der Schule genützt werden können.

Kapitel 9 befasst sich für die klassischen Sprachen Latein und Griechisch mit der Überprüfung von Kompetenzen sowie deren sprachreflexiven Besonderheiten hinsichtlich der zentralen Fertigkeiten „Übersetzen“ und „Interpretieren“. Beides sind mehrstufige, komplexe Prozesse, die sowohl der Analyse als auch der Reflexion bedürfen. Bisherige Beurteilungs- und Korrekturpraktiken sorgten meist für negativen Washback, da „Sinn“ als wichtigste Beurteilungsdimension schwer zu fassen und die bisherige Negativkorrektur der Validität nicht zuträglich war, sodass man dazu überging, objektivierbare Teilkompetenzen zu messen.

Kapitel 10 zeigt den komplexen Begriff der Beurteilungs- bzw. Bewertungskompetenz (assessment literacy) auf, der anhand der Bereiche assessment of, assessment for und assessment as learning näher beschrieben wird. In diesem Kapitel werden verschiedene Funktionen der Leistungsbeurteilung erläutert sowie alternative Formen der Beurteilung (wie dynamic assessment) oder Methoden zur Datenevaluierung wie think alouds vorgestellt, die eine Brücke zwischen Lehren, Lernen und Testen ermöglichen.

Das abschließende Kapitel 11 ist der, vor allem punktuellen, Leistungsbewertung im Schulalltag gewidmet und beleuchtet (in)formelle Tests und teacher made tests. Dabei wird der Frage nachgegangen, welche Aspekte Prüfungsaufgaben im schulischen Kontext aufweisen sollen, um Anforderungen wie Transparenz und gute Nachvollziehbarkeit zu erfüllen.

Abschließend sei folgenden Personen und Mitwirkenden aufrichtig und herzlich gedankt, ohne deren Unterstützung dieses Buch nicht möglich gewesen wäre: den AutorInnen der einzelnen Kapitel, Katrin Schmiderer für die professionelle und unermüdliche Arbeit am Manuskript, Herrn Seger, Frau Lembke und Frau Gastring vom Narr Verlag für ihre Geduld und die gute Zusammenarbeit, Margareth Graf und Renate Stadler für das aufmerksame Korrekturlesen und, last but not least, allen Studierenden, die die Ausbildung am IMoF durchlaufen haben und durch ihre kritischen Fragen, Anmerkungen und wertvollen Diskussionsbeiträge auch ImpulsgeberInnen für das vorliegende Buch waren.

 

Barbara Hinger und Wolfgang Stadler

1. Ein historischer Einblick in das Testen und Bewerten von Fremdsprachen

Barbara Hinger

Kann-Beschreibungen

 

Ich kann

die historische Entwicklung des Sprachentestens in groben Zügen skizzieren.

die drei Sprachtestparadigmen nach Spolsky (1976) erklären.

aktuelle Desiderate der Sprachtestforschung beschreiben.

Die Forschungsliteratur zu Testen und Bewerten von Fremdsprachen kann bislang nur wenige Arbeiten nennen, die sich systematisch mit der geschichtlichen Entwicklung dieses Bereichs auseinandersetzen. Dabei verweisen die meisten AutorInnen zunächst auf die allgemeine Geschichte des Testens und Bewertens, die bereits in der Zeit der kaiserlichen Dynastien Chinas vor über 2000 Jahren, und damit sehr früh, einsetzte. Die damals etablierten Testverfahren dienten dem Zweck, die Bestqualifizierten – unabhängig von ihrer Zugehörigkeit zu einer bestimmten sozialen Klasse oder Familie – für den Staatsdienst auszuwählen (vgl. Spolsky 2008, 445; s. auch Fulcher 2010, 1ff.; Kunnan 2008, 135; O’Sullivan 2012). Dieses Chinesische PrinzipNormorientierte Bewertung bei der Auswahl der Besten nach dem Chinesischen Prinzip (Macaulay 1853; Spolsky 1995) machte in anderen asiatischen Ländern, wie Korea oder Japan, ebenfalls Furore. Nach Europa gebracht wurde das Prinzip der Auswahl der Besten von den Jesuiten, die es geschickt mit dem hier im Mittelalter vorherrschenden Treviso-Prinzip (Spolsky 2008, 444) verbanden. Diesem ging es nicht um das Feststellen der Bestqualifizierten, sondern um den Nachweis der Leistung von SchülerInnen am Ende eines Lernjahres: Je nach Erfolg der SchülerInnen bezahlte die Stadt das Gehalt der verantwortlichen Lehrperson. Damit standen der curriculare Inhalt und dessen Umsetzung im Mittelpunkt: Erfüllten die SchülerInnen die Vorgaben zu den Lehrinhalten, hatten sie bestanden. Aus heutiger Sicht kann vermutet werden, hier einen Vorläufer kriterienorientierterkriterienorientierte BewertungTreviso-Prinzip als Vorläufer kriterienorientierter Bewertung, inhaltsvalider Verfahren vorzufinden, bei dem die Testkriterien auf dem Curriculum basieren und die gelehrten Inhalte mit jenen der Prüfungen übereinstimmen sollten. Demgegenüber wäre die chinesische Art des Überprüfens wohl als normorientiertnormorientierte Bewertung zu charakterisieren: Die Leistung des Einzelnen wurde vermutlich zur Leistung der Gesamtheit der TestteilnehmerInnen in Beziehung gesetzt. War ein Jahrgang leistungsschwächer, konnte eine Person mittlerer Leistung eher zu den Besten zählen als in einem Jahrgang mit einer leistungsstarken Gruppe. Im weiteren Lauf der Geschichte bleiben beide Zugänge zum Testen und Bewerten erhalten. Sie finden sich auch in aktuellen Debatten und begleiten die Auseinandersetzungen insbesondere in Zeiten von Änderungen und Umbrüchen in einem Prüfsystem. Grundsätzlich ging es jedoch im Chinesischen Prinzip wie im Treviso-System darum, Günstlingswirtschaft durch Fähigkeits- und Leistungsnachweise zu ersetzen und damit einer subjektiv gehaltenen oder auf sozialen Faktoren beruhenden Auswahl eine Objektivierung der Leistungsbewertung gegenüber zu stellen. Diese zielte letztendlich auf Chancengleichheit ab (vgl. O’Sullivan 2012, 9). Historisch gesehen gelang es damit in China, den Einfluss der Aristokratie zurückzudrängen und eine kaisertreue Beamtenschaft zu etablieren (vgl. Kunnan 2008, 136). Auch das Auftreten einer education industry, die die verschiedenen Tests erstellte, war – inklusive negativer Rückkoppelungen (WashbackWashback) (s. Abschnitt 4.2.2) – schon zu beobachten (vgl. O’Sullivan 2012, 9f.).

Aufgaben zur Überprüfung bestimmter sprachlicher Fertigkeiten waren in den chinesischen Tests bereits inkludiert. So musste nachgewiesen werden, dass man in der Lage war, einen politischen Essay zu schreiben oder Gedichte anhand formaler Vorgaben wie Reimbildung zu verfassen (vgl. Kunnan 2008, 136).

In Europa trugen vor allem die Universitäten zur Verbreitung von Tests und Prüfungen beiVerbreitung von Tests und Prüfungen durch Universitäten und neu etablierte staatliche Bildungssysteme. Die Umgestaltung respektive Neuetablierung staatlicher Bildungssysteme, wie in Frankreich, Preußen und Österreich insbesondere im 18. Jahrhundert, und die damit einhergehende Ausweitung und Öffnung der Schulsysteme zogen ähnliche Effekte nach sich. Interessanterweise hinkte das britische System hier zeitlich gesehen hinterher, wie O’Sullivan ausführt:

Testing became a bigger issue in Britain in the 19th century when the establishment realized they needed to select people according to capability and end the practice of patronage (the French and Germans had already come to that conclusion almost half a century earlier). The introduction of competitive examinations to the civil service in the UK was preceded by the Oxford University Commission, which led to the introduction of examinations within the education system in 1850, […]. (O’Sullivan 2012, 10)

In Großbritannien wurden Anfang des 20. Jahrhunderts Tests für Englisch als Fremdsprache für Personen eingeführt, die aus den Kolonien stammten und eine Ausbildung im britischen Bildungssystem anstrebten (vgl. O’Sullivan 2012, 11). In den USA reichen erste Vorläufer von large-scale language testslarge-scale test respektive Sprachtests für eine hohe Anzahl an TestteilnehmerInnen in die zweite Hälfte des 19. Jahrhunderts zurück (vgl. Kunnan 2008, 136f.)Vorläufer von large-scale language tests ab der 2. Hälfte des 19. Jahrhunderts in den USA. Diese Sprachtests waren Kinder ihrer Zeit und nutzten Prüfformate, die die damals vorherrschende Fremdsprachenvermittlung, also die Grammatik-Übersetzungs-Methode, widerspiegelten. An dieser Art der Überprüfung von Sprache kam bereits früh Kritik auf, sodass neue Aufgabenformate wie ‚Richtig/Falsch‘-, ‚Einfach- oder Mehrfachwahl‘- und ‚Bemerke den Fehler‘-Aufgaben entwickelt wurden (vgl. Kunnan 2008, 137), von denen man sich eine objektivere Beurteilung der Fremdsprachenkenntnisse erhoffte. Übersetzungsaufgaben wurden dennoch beibehalten. Einen deutlichen Wendepunkt in der Geschichte des Sprachentestens setzte der Zweite WeltkriegZweiter Weltkrieg als Wendepunkt in der Entwicklung der Sprachtestung. Insbesondere in den USA wurde nun in einem großangelegten Programm, dem Army Specialized Training Program, wissenschaftlich an der Entwicklung von Sprachtests gefeilt (vgl. Kunnan 2008, 138). Diese Arbeit ging einher mit der Etablierung der Audiolingualen Methode als neuem Sprachlehr- und -lernansatz. Dieser war ebenfalls wissenschaftlich begründet und basierte auf einer engen Kooperation zwischen hochangesehenen Linguisten des Strukturalismus, wie Bloomberg und Fries, und exzellenten Psychologen der behavioristischen Schule, wie B.F. Skinner.

In der Entwicklung des Testens und Bewertens von Sprache muss an dieser Stelle auf die erste Systematisierung der Geschichte von Sprachtests verwiesen werden, die von Spolsky (1976) vorgelegt wurde und uns gleichzeitig in die Gegenwart des Sprachentestens führt. Spolsky unterscheidet drei Perioden des SprachentestensDrei Perioden des Sprachentestens:

das vorwissenschaftlichevorwissenschaftliches Sprachentesten

das psychometrisch-strukturalistischepsychometrisch-strukturalistisches Sprachentesten

das psycholinguistisch-soziolinguistischepsycholinguistisch-soziolinguistisches Sprachentesten Sprachtestparadigma

Diese Unterteilung kann einerseits als geschichtliche Entwicklung und damit als Abfolge auf globaler Ebene gesehen werden. Je nach lokal-nationalen Bedingungen können sich die drei Perioden andererseits aber auch überlappen und/oder gleichzeitig und nebeneinander existieren (vgl. Spolsky 1976, 11). Auch wenn Spolsky zum einen zwar darauf verweist, dass es sich bei seiner Einteilung um eine grobe Generalisierung handelt (vgl. ebd.), und er zum anderen mittlerweile von seiner zunächst getroffenen Einteilung mit sehr differenzierten Begründungen abrückt (vgl. Spolsky 2017), erscheint es im Folgenden doch nützlich, die Charakterisierung der drei Perioden etwas näher zu betrachten.

Das vorwissenschaftliche SprachentestenSubjektive Bewertung von mündlichen und schriftlichen Performanzen im vorwissenschaftlichen Sprachentest-Paradigma zeichnet sich durch einen subjektiven Zugang zur Bewertung von sprachlichen Leistungen aus. Die Bewertung kommt ohne statistisch begründbare Auswertungsverfahren aus. Benotet wird die Sprachleistung beispielsweise anhand schriftlicher Performanzen der Lernenden oder nach einer kurzen mündlichen Äußerung. Sprachprüfungen liegen eindeutig in der Hand der Lehrpersonen und erfordern keine weitere Expertise: Wenn jemand eine Sprache lehren und unterrichten kann, dann wird davon ausgegangen, dass er/sie die Sprachleistungen der Lernenden auch bewerten kann (vgl. Spolsky 1976, 11f.).

Demgegenüber setzt die psychometrisch-strukturalistischeMöglichst objektive Bewertung vor allem rezeptiver Fertigkeiten durch geschlossene Aufgabenformate im psychometrisch-strukturalistischen Sprachtestparadigma Periode des Sprachentestens auf Expertentum. Nun gilt es, Sprachleistungen objektiv, zuverlässig und wissenschaftlich begründbar zu überprüfen und zu bewerten. ExpertInnen in der Testtheorie sind verantwortlich für das Entwerfen adäquater Prüfformate und für deren statistische Auswertung, LinguistInnen geben die zu überprüfenden Sprachbereiche vor. Ausgangspunkt ist die Kritik an den zuvor subjektiv ausgerichteten Sprachprüfungen. So wird erstmals anhand von Untersuchungen gezeigt, dass die vorherrschende Bewertung schriftlicher Aufsätze subjektiv ausgeprägt und nicht reliabel ist (vgl. Hartog & Rhodes, 1936; Pilliner, 1952, zitiert in Spolsky 1976). Diesem Problem wird vor allem durch das Entwickeln geschlossener Aufgabenformategeschlossenes AufgabenformatGeschlossene (vorgegebene Antwortmöglichkeiten), halb-offene (keine vorgegeben Antwortmöglichkeiten, erwartbare Antworten) und offene (keine vorgegebenen Antwortmöglichkeiten, freie Antworten) Aufgabenformate wie multiple choicemultiple choice-Aufgabe- oder EinfachwahlaufgabenEinfachwahlaufgabe und halb-offenerhalb-offenes Aufgabenformat Formate wie KurzantwortenKurzantwort versucht entgegenzuwirken, da deren Ergebnisse statistisch berechenbar sind und objektiv ausgewertet werden können. Damit wird der Fokus jedoch deutlich auf die Überprüfung der rezeptiven Fertigkeiten – Lesen, Hören – und der sprachlichen Mittel – Wortschatz, Grammatik – gelegt. Da die zu überprüfenden Sprachbereiche von der strukturalistischen Linguistik eingebracht werden, verwundert es nicht, dass diese auf der Basis kontrastiver Sprachvergleiche zwischen Ausgangs- und Zielsprache festgelegt werden und vor allem jene Strukturen überprüfen, die keine Gemeinsamkeiten in den betreffenden Sprachen aufweisen. Auf der Strecke bleiben eine umfassende Sicht von Sprache und ein adäquates Einbeziehen der produktiven Fertigkeiten Schreiben und Sprechen. Nichtsdestotrotz findet in der psychometrisch-strukturalistischen Sprachtestperiode die erste gezielte Zusammenarbeit zwischen den nach wie vor wesentlichen Bezugswissenschaften des Sprachenlernens, -lehrens und -testens, nämlich der Sprachwissenschaft und Psychologie, statt.

Während Morrow (1979, 144) die erste Periode, also das vorwissenschaftlichevorwissenschaftliches Sprachentesten Sprachentesten, metaphorisch als „Garten Eden“ bezeichnet, in dem jeder/jede frei ist, zu tun und zu lassen, was ihm/ihr beliebt, nennt er die eben skizzierte psychometrisch-strukturalistische Sprachtestperiode das „Tal der Tränen“: In diesem scheint alles reglementiert zu sein und die Messbarkeit überdeckt als wesentlichstes Ziel das tatsächliche Beherrschen und Sich-Ausdrücken-Können in einer Zielsprache.

Morrow zufolge wird mit der dritten Sprachtestperiode, dem psycholinguistisch-soziolinguistischen SprachentestenValidität als wesentliches Testprinzip im psycholinguistisch-soziolinguistischen Sprachtestparadigma, das „verheißene, gelobte Land“ betreten. Nun rückt das Gütekriterium der ValiditätValidität, also der Übereinstimmung zwischen einer umfassenden Konzeption von Sprache, wie sie im Unterricht vermittelt wird, und der Auffassung von Sprache, wie sie Sprachtests als theoretisches KonstruktKonstrukt (s. Abschnitt 5.2) zugrunde liegt, in den Mittelpunkt. Sprachtestergebnisse sollen zwar weiterhin so objektiv und reliabel wie möglich sein, angestrebt wird nun aber, diese Kriterien auch auf die produktiven Sprachfertigkeiten zu übertragen. Dieses Unterfangen sollte beispielsweise durch die Bewertung von mündlichen oder schriftlichen Sprachleistungen anhand der Überprüfung festgelegter Kriterien gelingen. Diese kriterienorientierte Bewertung soll an die Stelle einer subjektiven Notenvergabe treten und transparent gestaltet sein, indem die Bewertungskriterien auch den Lernenden zugänglich gemacht werden. Zudem sollte das Augenmerk auf IntraIntrarater-Reliabilität- und Interrater-ReliabilitätInterrater-Reliabilität gelegt werden (s. Abschnitt 4.1.2).

Sprachwissenschaftlich gesehen findet die Periode des psycholinguistisch-soziolinguistischen Sprachentestens in der sog. pragmalinguistischen Wende ihre Begründung. Diese setzt in den 60er Jahren des 20. Jahrhunderts ein und bedingt circa zehn Jahre später die kommunikative Wende im Fremdsprachenunterricht. Damit rücken die sprachliche Handlungs- und Kommunikationsfähigkeit in den Mittelpunkt des Unterrichts. Spolsky trägt diesem Paradigmenwechsel in Sprachwissenschaft und Sprachunterricht mit dem Adjektiv „soziolinguistisch“ Rechnung. Die Bezeichnung „psycholinguistisch“ lässt sich demgegenüber mit direkten und indirekten Auswirkungen des cognitive turn in der Sprachwissenschaft erklären. Dieser erlaubt insofern ein Abweichen vom Strukturalismus als Basis der Bewertung von sprachlichen Äußerungen, als er eine Grundlage für die empirische Auseinandersetzung mit realen Lerneräußerungen schafft und damit von einer kontrastiven Betrachtung sprachlicher Elemente in Ausgangs- und Zielsprache absieht. Die Betrachtung der tatsächlichen Sprachäußerungen von Lernenden wird nun postuliert und die Analyse der sich entwickelnden Lernersprache – interlanguageinterlanguage nach Selinker (1972) – ermöglicht.

Auf den Plan tritt somit die Psycholinguistik, die sich mit der mentalen Verarbeitung von Sprache beschäftigt. Auch wenn heute mittlerweile interessante theoretische Modellansätze vorliegen, sind wir nach wie vor weit von umfassenden, psycholinguistisch begründ- und beschreibbaren Entwicklungen des Sprachenlernens entfernt. Der Fremdsprachenunterricht kann also nur bedingt auf mögliche Handlungsanweisungen zurückgreifen, die lernersprachenbasiert sind (s. Kapitel 2 und 3). Die Forderungen, den Fremdsprachenunterricht und das Überprüfen von Leistungen in der Fremdsprache lernersprachensensibel auszurichtenForderung nach lernersprachensensiblem Testen, werden jedoch immer stärker (vgl. u.a. Larsen-Freeman 2009; Van Moere 2012) und weisen in eine anstrebenswerte Richtung. Bei entsprechender Vorlage ausreichender empirischer Forschungsergebnisse aus der Spracherwerbs-, Sprachlehr- und Sprachtestforschung könnte Spolskys psycholinguistisches Paradigma des Sprachentestens auch erfüllt werden und möglicherweise den Zugang zum „gelobten Land“, im Sinne Morrows, eröffnen, in dem Fremdsprachenunterricht und das Bewerten fremdsprachlicher Leistungen von Lernenden an einer realistischen Lernersprachentwicklung ausgerichtet sind.

In Anbetracht dessen erscheint es daher unter Einbeziehung des aktuellen Forschungsstandes adäquater, Spolskys dritte Periode des Sprachentestens nicht als „psycholinguistisch-soziolinguistisch“, sondern als „kommunikativ-handlungsorientiertkommunikativ-handlungsorientiertes Sprachentesten“ zu bezeichnen. Damit kann auch auf die richtungsweisenden Sprachmodelle von Canale (1983), Canale & Swain (1980), Bachman (1990) sowie Bachman & Palmer (1996) verwiesen werden, die kommunikative Sprachkompetenzen umfassend definieren und Kriterien für ihre Überprüfbarkeit vorlegen. Das Einbeziehen aller sprachlichen Fertigkeiten und das Bemühen um eine adäquate Überprüfungintegriertes Aufgabenformat von Wortschatz und Grammatik (s. Abschnitt 8.1) stehen aktuell im Mittelpunkt der Sprachtestforschung. Mit Davies (2014, 12) kann darauf verwiesen werden, dass die folgenden Fragen nach wie vor wesentlich für das Sprachentesten sind:

Wie wird getestet?

Was wird getestet?

Wer sind die PrüferInnen?

Der hier knapp skizzierte Abriss einer historischen Entwicklung des Sprachentestens leitet über zu Fragen der sozialen und politischen VerantwortungSoziale und politische Verantwortung im Umgang mit Sprachtests, die in Bezug auf den Umgang mit Sprachtestergebnissen und den Zweck von Sprachtests gestellt werden müssen. Diese Forderung gilt in besonderem Maße für large-scale Sprachprüfungen, auf die sich die hier vorgelegten Beschreibungen grosso modo auch beziehen. Die Geschichte des Testens und Bewertens von Fremdsprachen, wie sie im schulischen Alltag in Form von schriftlichen Klassen-/Schularbeiten, mündlichen Prüfungen, Mitarbeitsüberprüfungen oder Hausübungen erfolgen, muss nämlich erst geschrieben werden. Dieses Desiderat in Bezug auf das schulische Überprüfen fremdsprachlicher Leistungen gilt sowohl hinsichtlich seiner geschichtlichen Aufarbeitung als auch hinsichtlich der aktuellen Forschungslage. Erste Ansätze einer eingehenderen, forschungsbasierten Beschäftigung mit schulischem Sprachentesten fokussieren im Moment eher auf Definitionsversuche der sog. Assessment literacy von Lehrpersonen als aktuelles Desiderat der Sprachtestforschung assessment literacyassessment literacy von Sprachlehrpersonen und grenzen diese von Erfordernissen für professionelle SprachtesterstellerInnen ab (s. Kapitel 10 und 11). Dabei spielt jedenfalls im österreichischen Kontext die Etablierung der neuen SRDP für die Fremdsprachen insbesondere im Hinblick auf den WashbackWashback-Effekt für den schulischen Sprachunterricht eine entscheidende Rolle, in Deutschland kommt diese Rolle vor allem den Bildungsstandards zu (vgl. u.a. Rossa 2016). Das Überprüfen und Testen sprachlicher Leistungen sollte sich generell in den Dienst demokratischer Chancengleichheit für die TestteilnehmerInnen auf der Basis kriterienorientierterkriterienorientierte Bewertung und transparenter Bewertungsverfahren stellen, die Lernende dabei unterstützen, ihr Potential sichtbar zu machen (s. u.a. Spolsky 1976, 21ff.).

Arbeitsaufträge und Diskussionsfragen

Haben Sie Erfahrungen in einem der drei genannten Sprachtestparadigmen gesammelt? Wenn ja, welches Paradigma trifft eher auf Sie als Sprachlernende, welches eher als Sprachlehrende zu? Nennen Sie jeweils mögliche Gründe dafür.

Finden Sie sich vielleicht in mehr als einem dieser Sprachtestparadigmen wieder? Wenn ja, welche Gründe können Sie dafür anführen?

Denken Sie an Ihre eigene Praxis als Prüfende: Erkennen Sie Grundlagen, anhand derer Sie mündliche Prüfungen und schriftliche Klassen-/Schularbeiten bewerten? Lassen sich diese sprachwissenschaftlich begründen? Gibt es dafür psychologische Gründe?

Stellen Sie sich vor, Sie müssen die Art Ihrer Prüfungen und Klassen-/Schularbeiten einem/einer neuen KollegIn erklären: Wie gehen Sie vor? Welche Parameter nennen Sie? Führen Sie Gründe für die Wahl Ihrer Parameter an und erklären Sie diese Ihrem/Ihrer neuen KollegIn anschaulich.

Weiterführende Literatur

Davies, A. (2014): „Fifty Years of Language Assessment“. In: Kunnan, A.J. (Hrsg.): The Companion to Language Assessment I:1:1. John Wiley & Sons, 1–19.Der Beitrag gibt einen sehr guten Einblick in die wichtigsten Debatten der letzten 50 Jahre im Bereich des Sprachentestens, stellt umfassende Literaturangaben bereit und ist von einem der international anerkanntesten Sprachtestexperten verfasst.

 

Fulcher, G. (2010): Practical Language Testing. London: Hodder Education.Insbesondere das erste Kapitel beschäftigt sich mit geschichtlichen Bedingungen und Entwicklungen des Sprachentestens. Das Abwägen unterschiedlichster Positionen und das Anführen von Pro- und Kontraargumenten beeindruckt ebenso wie die historische Einbettung in politische Rahmenbedingungen und der Verweis auf allgemeine Prüfsysteme.

 

Spolsky, B. (1995): Measured Words. Oxford: Oxford University Press.Spolsky erläutert die Geschichte des Sprachentestens umfassend, anschaulich und unter Berücksichtigung gesellschaftlicher Vorgaben und Bedingungen. Das Werk ist ein Standardwerk für jene, die sich mit der historischen Entwicklung des Testens von Sprache näher beschäftigen möchten.

2. Der GeR und die Orientierung am sprachlichen Output der Lernenden

Barbara Hinger

Kann-Beschreibungen

 

Ich kann

den Entstehungskontext des GeR erläutern.

die Niveaubeschreibungen des GeR und die Kritik an ihnen erklären.

die Bedeutung des GeR für das Testen und Überprüfen von fremdsprachlichen Leistungen beschreiben und kritisch betrachten.

Der Gemeinsame europäische Referenzrahmen für Sprachen (GeR) wurde vom Europarat im Jahr 2001 herausgegeben und blickt auf Vorarbeiten von mehr als 30 Jahren zurück. Er hat sich im Großen und Ganzen als Erfolgsgeschichte erwiesen. Dies zeigt sich u.a. an der stattlichen Anzahl von Übersetzungen in 40 Sprachen, darunter viele nichteuropäische Sprachen aber auch Minderheitensprachen wie etwa das Romani. Rezipiert wird der GeR in Ländern wie Japan, Korea, Ägypten, Kolumbien oder Kanada, um nur einige zu nennen, und damit weit über den europäischen Kontext hinaus. Dieser Erfolgsgeschichte als Referenzwerk für das Erlernen, das Vermitteln und das Überprüfen von Sprachen stehen auch kritische Einschätzungen gegenüber, die unten wie in weiteren Kapiteln angesprochen werden. Zunächst wird jedoch auf den Entstehungskontext und auf sprachwissenschaftliche Bezugsmodelle des GeR sowie auf eines seiner Begleitinstrumente, das Europäische Sprachenportfolio (ESP), eingegangen. Daran anschließend wird seine Bedeutung für das Prüfen und Bewerten von fremdsprachlichen Leistungen erläutert.

Mit dem EuroparatDer Europarat ist Herausgeber des GeR., der aktuell aus 47 Mitgliedsstaaten besteht, ist eine Institution Herausgeber des GeR, die sich seit ihrer Gründung im Jahr 1949 der Zusammenarbeit zwischen europäischen Ländern in den Bereichen Menschenrechte, Demokratie, Kultur und Bildung verpflichtet und damit explizit keine wirtschaftlichen Ziele verfolgt, wie dies etwa bei der Europäischen Union der Fall ist. Sich das zu vergegenwärtigen, erscheint wesentlich, um den GeR nicht als (sprachen-)politisches Instrument der Europäischen Union misszuverstehen (vgl. u.a. Hulstijn 2014, 3; Krumm 2016, 634). Zur Umsetzung der sprachenpolitischen Ziele des Europarats bekennt sich der GeR hingegen explizit (Europarat 2001, 14ff.).

Der Europarat greift insbesondere seit der Gründung seiner sprachenpolitischen Abteilung Mitte der 1950er Jahre Fragen der Fremdsprachenvermittlung für erwachsene LernerInnen auf und veröffentlichte ab Mitte der 1970er Jahre erste Sprachkompetenzbeschreibungen, die als Vorläufer des GeRVorläufer des GeR: u.a. Threshold Level 1975 gelten (Threshold Level1975, Un Niveau Seuil1976, Nivel Umbral1979, Kontaktschwelle Deutsch als Fremdsprache1981, Porogovyj uroven’1996, vgl. u.a. Krumm 2016). Der Fokus dieser Beschreibungen lag auf dem Gebrauch von Sprache für kommunikative Zwecke außerhalb des Klassenzimmers. Begründungen dafür boten Sprachnotionen (semantische Kategorien wie Größen- und Quantitätsbezeichnungen, deiktische Bezeichnungen etc.) und sprachliche Funktionen (Sprechakte, wie Austin und Searle sie im Rahmen der pragmatischen Wende der Linguistik postulieren) (vgl. u.a. López Rama & Luque Agulló 2012, 186). Erstmals gebündelt wurden diese im sog. notional-functional syllabusErstellung eines notional-functional syllabus durch Wilkins (1976), der von Wilkins (1976) für den Europarat erstellt wurde. Nach der erfolgreichen Definition des Threshold Level wurden dessen Autoren Van Ek & Trim vom Europarat gebeten, zwei weitere Sprachniveaus zu beschreiben, nämlich je ein darunter- (WaystageDefinition des Threshold Level sowie des darunterliegenden Waystage und des darüberliegenden Vantage) und ein darüberliegendes (Vantage) Niveau. Theoretische Bedenken der Autoren gegenüber der Definition weiterer Niveaus wichen praktisch-pragmatischen Überlegungen wie z. B. der realen Unterteilung von staatlichen Schulsystemen in primäre, sekundäre und tertiäre Ausbildungsbereiche, für die Übertrittsberechtigungen von einem in den nächsten Bereich auch durch fremdsprachliche Leistungen messbar sein sollten (Trim 2012, 28, zitiert in Hulstijn 2014, 8f.). Niveaustufen schienen das besser zu vermögen als das Nachzeichnen eines kontinuierlichen und individuell verschieden verlaufenden Sprachlernprozesses, von dem Van Ek & Trim eigentlich ausgingen (ebd.). Der GeR beruht auf eben dieser Vorgangsweise, indem er die bereits existierenden drei Stufen in je zwei unterteilt und so sechs Niveaustufen von A1 bis C2 beschreibt1, welche wohl die stärkste Wirkung des gesamten Dokuments entfaltet haben.Erweiterung und Beschreibung der 6 Niveaustufen von A1 bis C2

Anerkennenswert ist insbesondere, dass es North (2000) durch seine beachtliche empirische Arbeit gelungen ist, funktionale Sprachbeschreibungen Skalen zuzuordnen, die dem GeR, wie Weir (2005b, 294) betont, als Basis für an Sprachhandlungen orientierte Kompetenzen von Sprachlernenden dienen. Auch North (2014, 229) selbst verweist immer wieder auf die HandlungsorientierungHandlungsorientierungHandlungsorientierung und Outputorientierung als wesentliche Prinzipien des GeR als zentrale Basis des GeR und sieht eine/einen Sprachlernende/n als „language user with specific needs, who needs to ACT [Hervorhebung im Original] in the language in real-world domains“. Darüber hinaus wird das Ziel des Europarates, das Lernen von Sprachen zu demokratisieren und transparent auszurichten, in den Fokus gerückt: Lernende sollen dabei unterstützt werden, ihren Lernfortschritt selbst kontrollieren und nachzeichnen zu können (Trim 1978, 1, zitiert in Little 2011, 382). Dies erscheint mit den GeR-Niveaubeschreibungen möglich. Sie sind als sog. Kann-BeschreibungenKann-Beschreibung positiv formuliert und verschriftlichen, wie Lernende in bestimmten Kontexten sprachlich handeln (können): Damit illustrieren sie den erwarteten Output von Sprachlernenden und überwinden so die lang tradierte Inputorientierung im Fremdsprachenunterricht.

In diesem Sinne ist auch die Konzipierung und Erstellung des Europäischen SprachenportfoliosEuropäisches Sprachenportfolio (ESP)Das Europäische Sprachenportfolio (ESP) fördert Lernerautonomie, u.a. durch Selbstbewertung des Lernfortschritts. zu verstehen, das dem GeR als Begleitinstrument vom Europarat zur Seite gestellt wird. Es spiegelt insofern die Demokratisierung des Sprachenlernens wider, als es die Eigenverantwortung für das Sprachenlernen durch das Instrument der Selbstbewertung (self assessmentself assessmenttool) stärkt. Mittlerweile liegen mehr als 100 Versionen des ESP, sowohl in Papierform als auch als Online-Tool, vor (https://tinyurl.com/y92qvswf [21.09.2017]). Jedes ESP überträgt die GeR-Skalenbeschreibungen auf konkrete Sprachen und ist damit sprachspezifisch ausgerichtet. Es ermöglicht Sprachlernenden, Lernziele zu konkretisieren und ihr Sprachenlernen einzuschätzen (vgl. u.a. Little 2005, 2011; North 2014). Das ESP berücksichtigt durch seine drei Teile sowohl punktuelle als auch formative Aspekte: So demonstrieren die Einträge von Lernenden im Sprachenpass ihren Sprachstand zu einem bestimmten Zeitpunkt (punktuell); die Sprachlernbiographie gibt anhand der Selbstbewertungsraster, die für jede Fertigkeit und jede Niveaustufe als Kann-BeschreibungenKann-Beschreibung vorliegen, Auskunft über den Verlauf des Lernprozesses (formativ); die im Dossierteil gesammelten Dokumente belegen diesen (vgl. Little 2005, 235f.). Darüber hinaus können die Selbstbewertungsrasterself assessment der Sprachlernbiographie, z. B. in Posterform an Klassenzimmerwänden, auch für Rückmeldungen zum Unterricht selbst herangezogen werden (s. dazu Weiskopf-Prantner 2007, 61ff.). Insgesamt erweist sich das ESP als Instrument zur Stärkung der Lernerautonomie (Little 2005, 2011), der sich der Europarat spätestens seit den 1970er Jahren verpflichtet fühlt (Holec 1979, zitiert in Little 2005, 325) und unterstützt Lernende dabei, die Verantwortung für das Erlernen einer Sprache selbst in die Hand zu nehmen.

Was die Konstruktion der GeR-Skalen betrifft, wird diesen gegenüber vor allem der Vorwurf erhoben, dass sie nicht auf der Analyse von realen Sprachhandlungen von Lernenden beruhen und sich auf keine empirische Basis von Lernerperformanzen berufen können (vgl. u.a. Harsch 2005, 184f.). Vielmehr wurden verschiedene Modelle kommunikativer Sprachkompetenz (insbesondere Bachman 1990; Canale & Swain 1980; Canale 1983; Hymes 1971 u.a.) grundgelegt und ca. 40 bereits vorliegende Skalen zur Sprachkompetenzbeschreibung2 herangezogen, wie z. B. die ACTFL Guidelines (American Council on the Teaching of Foreign Languages). So entstanden DeskriptorenentwürfeSkalenentwicklung durch Bewertung bestehender Deskriptoren und Basierung auf verschiedene Modelle kommunikativer Sprachkompetenz, die in Folge in mehreren Verfahren mit dem Erfahrungswissen von Lehrpersonen abgeglichen3 und auf ihre Tauglichkeit überprüft wurden. In einem nächsten Schritt wurden die so bearbeiteten DeskriptorenDeskriptor weiteren ca. 300 Lehrpersonen in einer Fragebogenerhebung vorgelegt, damit diese die sprachlichen Leistungen ihrer über 2000 Lernenden anhand dieser Deskriptoren einschätzen konnten. Die so erhaltenen Einschätzungen der Deskriptoren wurden mithilfe des Rasch-Modells statistisch analysiert und skaliert (vgl. Harsch 2005, 179)4. Alle an diesem Prozess beteiligten Lehrpersonen stammten aus der Schweiz. Die herangezogenen Lernerleistungen bezogen sich auf die Fremdsprachen Englisch, Deutsch und Französisch. Der innovative Schritt, den North (2000) in der Erarbeitung der Skalen setzt, liegt vor allem darin, dass bestehende Skalenbeschreibungen unter Zuhilfenahme von Einschätzungen durch Lehrpersonen mit Sprachmodellen kombiniert werden, die kommunikativen Kompetenzen Rechnung tragen. Damit gelingt North ein Transfer des Postulats der HandlungsorientierungHandlungsorientierung in konkrete Sprachniveaubeschreibungen5.

Der Konstruktion der GeR-Skalen liegen also sowohl Kategorien aus der angewandten Sprachwissenschaft als auch Kategorien aus der Berufserfahrung von Lehrpersonen zugrundeDie GeR-Skalen basieren nicht auf Analysen empirisch erhobener Lerneräußerungen, sondern auf der Einschätzung von Lehrpersonen. (North 2014, 231). Die so entstandenen DeskriptorenDeskriptor/GeR-Skalenbeschreibungen werden einerseits in den übergeordneten Rahmen der Sprachverwendung, andererseits in die Kompetenzen der Sprachverwendenden eingebettet. Während erstere im Kapitel 4 des GeR dargelegt und beschrieben werden, umfassen zweitere das Kapitel 5.

Die Sprachverwendung untergliedert sich in folgende sechs Bereiche:

Kontext der Sprachverwendung

Themen der Kommunikation

Kommunikative Aufgaben und Ziele

Kommunikative Aktivitäten und Strategien

Kommunikative Sprachprozesse

Texte.

Deskriptorenskalen finden sich nur für den Bereich Kommunikative Aktivitäten und Strategien und die darin enthaltenen Teilbereiche Produktive Aktivitäten und Strategien, Rezeptive Aktivitäten und Strategien sowie Interaktive Aktivitäten und Strategien (s. Abb. 1).

Abb. 1: Teildarstellung des GeR, Kapitel 4: Sprachverwendung, Sprachverwender und Sprachlernende

Für die Kompetenzen der Sprachverwendenden beschreibt der GeR sowohl allgemeine als auch kommunikative Sprachkompetenzenkommunikative Sprachkompetenzen. Während die allgemeinen Sprachkompetenzen sich auf verschiedene Wissensbereiche beziehen und insbesondere interkulturelle Aspekte aufnehmen, finden sich bei den kommunikativen Sprachkompetenzen drei Unterbereiche: linguistische, soziolinguistische und pragmatische Kompetenz (s. Abb. 2). Deskriptorenskalen liegen nur für die kommunikativen, nicht jedoch für die allgemeinen Kompetenzen vor.

Abb. 2: Teildarstellung des GeR, Kapitel 5: Die Kompetenzen des/der Sprachverwendenden/-lernenden

Insgesamt stellt der GeR an die 40 Skalen für kommunikative Aktivitäten und Strategien (Kapitel 4 des GeR) sowie 13 Skalen für kommunikative Sprachkompetenzen (Kapitel 5 des GeR) bereit. Darüber hinaus finden sich eine übergreifende Globalskala, ein Selbstbeurteilungsraster und ein Beurteilungsraster zur mündlichen Kommunikation (Kapitel 3 des GeR).

Nicht alle Niveaubeschreibungen haben den oben erwähnten Entstehungsprozess durchlaufen. Dies trifft insbesondere auf die DeskriptorenDeskriptor, die sich auf die Fertigkeit Schreiben beziehen (vgl. Europarat 2001, 212), sowie auf ca. die Hälfte der C2-Deskriptoren zu (North 2014, 230). Im GeR ist dies jeweils unter der betreffenden Skala ausgewiesen.

Dass die GeR-Sprachniveaubeschreibungen nicht auf Ergebnissen von Analysen empirisch erhobener Lerneräußerungen beruhen, bleibt eine ebenso ernstzunehmende wie gerechtfertigte Kritik, die zunächst jedoch durch den zeitlichen Entstehungskontext des GeR und die zur damaligen Zeit unzulängliche Forschungslage im Fremdsprachenerwerb erklärt werden kann (vgl. North 2007, zitiert in Papageorgiou 2016, 337). Dass jedoch auch in der gegenwärtig durchgeführten Überarbeitung bestimmter GeR-Skalen darauf verzichtet wird, mittlerweile vorliegende Ergebnisse aus der Spracherwerbsforschung zu berücksichtigen, ist wenig nachvollziehbar (s. auch Kapitel 3). Liegen doch zumindest mit den Forschungen von Pienemann und seinem Team zu Englisch (Keßler 2006; Keßler, Lenzing & Liebner 2016; Pienemann 1998), von Diehl et al. (2000) zu Deutsch als Fremdsprache in der französischsprachigen Schweiz oder zu Französisch als Fremdsprache im schwedischen Kontext (Bartning & Schlyter 2004; Schlyter 2003) Spracherwerbsresultate für die Entwicklung morphosyntaktischer Bereiche der Lernersprache vor, die berücksichtigenswert erschienen.

Das umfassendste Projekt in dieser Hinsicht ist English ProfileEnglish Profile– The CEFR for English, mit dessen Erarbeitung 2006 begonnen wurde (Barker 2016, 33) und das nun erste Analyseergebnisse online zugänglich macht (https://tinyurl.com/yavl7gtt [21.09.2017]). In diesem Projekt werden reale Lerneräußerungen für Englisch als Fremdsprache gezielt mit GeR-Skalenbeschreibungen abgeglichen (vgl. u.a. Harrison & Barker 2015; Hulstijn 2014, 14f.; North 2016, 230). Es beeindruckt durch ein umfassendes, weltweit erhobenes Korpus an Sprachperformanzen von EnglischlernerInnen. Konkrete Performanzanbindungen liegen in den Bereichen Wortschatz und Grammatik für alle sechs GeR-Niveaus vor (English Vocabulary Profile, English Grammar Profile). Ob und wie diese Ergebnisse die Skalenbeschreibungen modifizieren werden, bleibt abzuwarten.

Kurz umrissen seien hier die kürzlich finalisierten Überarbeitungen des GeR (Council of Europe 2017). Diese beziehen sich sowohl auf Neu- als auch auf WeiterentwicklungenNeue GeR-Skalen werden entwickelt, bestehende weiterentwickelt. von bestehenden GeR-Skalen. Neu erstellt wurden Niveaubeschreibungen für die Bereiche Sprachmittlung respektive Mediation, für mehrsprachigkeitsbasierte Sprachlernaspekte, für Literatur- und Kunstanalysen sowie -kritik und für Online-Kommunikationsaktivitäten. Weiter entwickelt wurden DeskriptorenDeskriptor für die Niveaustufen A1, C1 und C2 (vgl. North & Panthier 2016). Die Vorgangsweise entspricht dabei jener, die bereits bei der ursprünglichen Erarbeitung eingesetzt wurde (vgl. auch North & Docherty 2016). Interessant erscheint, dass sich an die 1000 Personen weltweit beteiligt haben und 45 Länder repräsentiert waren (ebd.). Das in der ursprünglichen Form auf die Schweiz begrenzte Projekt hat sich also deutlich vergrößert und verweist damit auch auf die hohe Wirkkraft, die der GeR international entfalten konnte.

Was die Bedeutung des GeR für das Lehren betrifft, so ist in erster Linie auf die Curriculumentwicklung zu verweisen, die der GeR selbst als einen seiner möglichen Zwecke definiert (Europarat 2001, 18)6. In diesem Zusammenhang sind die Neukonzipierung der Fremdsprachenlehrpläne für die Sekundarstufe I und II im allgemeinen Schulwesen in Österreich zu nennen, die ebenso sprachenübergreifend ausgerichtet sind wie der GeR selbst (BMBWK2004 und 2006). Die in den jeweiligen Lernjahren zu erreichenden Lernziele werden an den GeR-Skalenbeschreibungen für die sprachlichen Fertigkeiten ausgerichtet, womit die KompetenzorientierungKompetenzorientierung erstmals im Lehrplan grundgelegt und konkretisiert ist. Auch die Rahmenlehrpläne in deutschen Bundesländern wurden nach und nach mit dem GeR abgestimmt. Der von ihnen zunächst verfolgte sprachspezifische Ansatz wird aktuell durch sprachenübergreifende Konzipierungen abgelöst7. Ähnliches trifft auf die Schweiz zu. Auf die Problematik bei der Implementierung neuer Lehrpläne soll hier nicht eingegangen werden. Im Wesentlichen leiten die kompetenzorientierten, GeR-basierten Lehrpläne in den jeweiligen Schulsystemen einen Paradigmenwechsel ein, der sich in den Definitionen der zu erreichenden sprachlichen Leistungen und damit der Outputbeschreibung von LernerInnen zeigt und die lange vorherrschende Inputorientierung respektive Orientierung an Lehrinhalten ablöst.

Der Bereich, in dem der GeR vermutlich am heftigsten diskutiert, vielleicht auch am stärksten kritisiert und wohl am öftesten rezipiert wird, ist jener des Sprachentestens8.Wesentliche Bedeutung des GeR für die Entwicklung des Sprachentestens Der GeR hat, wie auch immer er eingeschätzt wird, die Diskussion über das Sprachentesten deutlich vorangetrieben und in hohem Maße darauf Einfluss genommen, wie die Vermittlung von Fremdsprachen und deren Überprüfung aufeinander bezogen und wie diese auf einen externen Bezugsrahmen abgestimmt werden können (Purpura 2016, 202). Ebenso deutlich hat der GeR dazu beigetragen, die Erfordernisse für eine Sprachtestexpertise deutlicher ins Bewusstsein zu heben als dies zuvor der Fall war, und zwar, wie Purpura (ebd.) meint, nicht nur auf Europa beschränkt, sondern weltweit. North (2014, 229) konkretisiert dies wie folgt:

Before the CEFR there was a practical ‘Tower of Babel’ problem in making sense of course certificates and test scores. A teacher, school or examination body would carry out a test and report a result in their own way as ‘19’, ‘4.5’, ‘516’, ‘B’, ‘Good’, etc. It is no exaggeration to say that twenty years ago a teacher of Spanish in a secondary school in southern France, a teacher of French to Polish adults and a teacher of English to German businessmen would have taken ten to twenty minutes to establish any common ground for a discussion. The CEFR labels help.

Der GeR selbst widmet dem Bewerten und Prüfen von Sprachen ein eigenes Kapitel, nämlich sein abschließendes Kapitel 9. In diesem werden grundlegende Begriffe des Sprachentestens erklärt, der GeR wird als Hilfsmittel für das Überprüfen und Bewerten sprachlicher Leistungen vorgestellt und es wird auf Test- und Bewertungsverfahren eingegangen. Damit bietet Kapitel 9 gute Einsichten auch für Personen, die sich dem Thema erstmals nähern möchten.

ExpertInnen im Sprachentesten bemängeln jedoch, dass die GeR-DeskriptorenDeskriptor zwar sprachliches Verhalten von Lernenden beschreiben, sich aber nicht auf Sprachtestaufgaben beziehen (Alderson in Little 2011, 382; Fulcher 2016, 33f.). Demgegenüber wird die Auffassung vertreten: „any ‚can do‘ descriptor may be used to specify a learning target, select and/or develop learning activities and materials, and shape the design of assessment tasks“ (Little 2011, 382, Hervorhebung durch die Autorin). Die Operationalisierung einer konkreten Kann-BeschreibungKann-Beschreibung für eine bestimmte Sprachtestaufgabe bedarf allerdings eines fundierten Verfahrens (vgl. North 2014, 230) und hängt immer vom Zweck eines Tests oder einer Prüfung ab. Der Europarat stellt mittlerweile zahlreiche Dokumente dafür zur Verfügung. Das wichtigste darunter ist das sog. Handbuch respektive Manual (Council of Europe 2009). Es beschreibt die erforderlichen Prozesse der Verbindung von Sprachentests mit dem GeR im Detail und wurde 2003 zunächst als Pilotversion, 2009 in der endgültigen Version publiziert (Council of Europe 2009). Mittlerweile liegt auch ein deutschsprachiges Handbuch (telc 2012) vor, das jedoch keine Übersetzung ist, sondern sich als Zusatz und Ergänzung zum Manual versteht. Das Manual selbst erläutert die Anbindung von Sprachentests an den GeR, die folgende Arbeitsprozesse umfassen sollte: Das generelle Vertrautwerden mit dem GeR, die Definition der Testinhalte und Aufgabenformate, die Verbindung mit den zu überprüfenden Sprachkompetenzstufen (Standard-SettingStandard-Setting und BenchmarkingBenchmarking) und die Interpretation der im Test erhobenen Leistungen.

Sowohl das Manual als auch die telc-Publikation richten sich explizit an Lehrpersonen und an SprachtestexpertInnen, unterscheiden in weiterer Folge jedoch nicht zwischen diesen beiden Zielgruppen9