Psychologie in Erziehung und Unterricht

Zeitschrift für Forschung und Praxis

Herausgeber: Köller, Olaf / Lewalter, Doris / Saalbach, Henrik / Walper, Sabine

Heft 4, 2019.

€ [D] 58,00 / € [A] 59,70

DOI: 10.2378/peu2018.art31d
Johannes Schult, Marlit Annalena Lindener:
Empirische Arbeit: Zur Messgüte von geschlossenen und offenen Antwortformaten in Lernstandserhebungen
Psychometric Properties of Multiple-Choice and Constructed Response Formats in Proficiency Tests

2018, 260-272

In schulischen Large-Scale-Assessments kommen häufig verschiedene Aufgabentypen zum Einsatz. Aufgaben mit geschlossenem Antwortformat haben gegenüber Aufgaben mit offenem Antwortformat große Vorteile hinsichtlich der Auswertungsobjektivität. Landesweite Lernstandserhebungen werden oft nicht zentral von geschultem Personal ausgewertet, sondern von Lehrkräften vor Ort. Die vorliegende Arbeit untersucht formatspezifische Validitätsunterschiede anhand eines Instruments zur Diagnose mathematischer Kompetenzen aus der Domäne Zahlen und Operationen. Die Analyse basiert auf Teilen der „Lernstand 5“-Pilotierungsstichprobe 2016 (n=1205 Viertklässlerinnen und Viertklässler). Aus den offenen und geschlossenen Testaufgaben wurden jeweils formatspezifische Skalen mit gleicher Aufgabenanzahl und vergleichbarer Reliabilität gebildet. Für beide Formate zeigten sich Validitätshinweise bezüglich der Mathematiknote (rgeschlossen=.57; roffen=.60). Der Validitätskoeffizient der (offenen) Kurzantwort-Skala unterschied sich dabei nicht signifikant von dem der geschlossenen Multiple-Choice-Skala (delta r=0.03, p=.15). Die Ergebnisse deuten darauf hin, dass die Auswertung von Lernstandserhebungen durch Lehrkräfte bei offenen und geschlossenen Aufgaben gleichermaßen zu validen Messungen führen kann.

Summary: Educational large-scale assessments often employ various different response formats. Objective scoring rules are an advantage of multiple-choice (MC) items over constructed response (CR) items. State-wide educational assessments are often coded by the teachers on location rather than centrally by trained raters. The present study investigates format-specific differential validity, using a mathematics competency assessment in the domain of numbers and operations. The analysis is based on a subsample of the “Lernstand 5” pilot study 2016 (n=1205 fourth-graders). Using MC items and short answer (CR) items respectively, format-specific scales were created with the same number of items per scale and comparable reliabilities. Both format-specific scales showed good criterion validity (rMC=.57; rCR=.60) with the Mathematics grade. The short answer scale’s validity did not differ significantly from the MC scale’s validity (delta r=0.03, p=.15). These results support the conclusion that teacher-coded assessments with both response formats can yield a valid measurement in educational large-scale assessments.

Keywords: Response format, multiple-choice items, mathematics proficiency, validity, elementary school

Deutsch Abstract (dt.) | PDF Volltext



nach obennach oben | zurückzurück zur Übersicht