Dennis Föste-Eggers, Fabian T. C. Schmidt, Marit Kristine List, Robert Glüsing, Johanna Fleckenstein
Empirische Arbeit: Automatisierte Bewertung argumentativer Texte von Lernenden der Sekundarstufe: Potenziale und Grenzen der Nutzung von Large Language Models im Fach Deutsch
Sofort lieferbar
0,00 €
inkl. MwSt.
Die Beurteilung argumentativer Texte ist eine komplexe und zeitaufwendige Tätigkeit, wodurch die Diagnostik und Förderung sowohl im Deutschunterricht als auch im Rahmen von Bildungsmonitorings erschwert werden. Large Language Models (LLMs) eröffnen neue Möglichkeiten der automatisierten Schreibbeurteilung; ihre Leistungsfähigkeit bei der Bewertung deutschsprachiger Texte ist jedoch wenig untersucht. In der vorliegenden Studie wurden 1000 argumentative Texte von Lernenden der Sekundarstufe Rubrik-basiert von menschlichen Rater:innen und verschiedenen LLMs beurteilt. Der Fokus der Analyse lag auf Akkuratheit (quadratisch gewichtete
Kappa-Koeffizienten, ±1-Übereinstimmung). Zudem wurden Urteilstendenzen und Fairnessaspekte untersucht. Die Ergebnisse zeigen, dass LLMs insbesondere bei holistischen Urteilen eine gute Übereinstimmung mit menschlichen Ratings erreichen. Analytische Dimensionen (insbesondere Sprache) sind für LLMs schwieriger zu erfassen. Es zeigten sich modellabhängige Urteilstendenzen. Hinweise auf systematische Verzerrungen bei ausgewählten Hintergrundmerkmalen der Lernenden traten nicht auf. LLMs erscheinen somit potenziell nützlich für summative Rückmeldungen.
Kappa-Koeffizienten, ±1-Übereinstimmung). Zudem wurden Urteilstendenzen und Fairnessaspekte untersucht. Die Ergebnisse zeigen, dass LLMs insbesondere bei holistischen Urteilen eine gute Übereinstimmung mit menschlichen Ratings erreichen. Analytische Dimensionen (insbesondere Sprache) sind für LLMs schwieriger zu erfassen. Es zeigten sich modellabhängige Urteilstendenzen. Hinweise auf systematische Verzerrungen bei ausgewählten Hintergrundmerkmalen der Lernenden traten nicht auf. LLMs erscheinen somit potenziell nützlich für summative Rückmeldungen.
| Bibliographie | Lucas Jasper Jacobsen / Julia Pargmann / Jonathan Rohlmann / Kira Elena Weber Empirische Arbeit: KI-Literacy von Lehrenden: Prompt Engineering und Modellwahl als Prädiktoren der Qualität von KI-Feedback 2026. 16 Seiten. () |
|---|---|
| Seiten | 18 |
| Artikelnummer | PEUPP202614 |
| Autor:in | Dennis Föste-Eggers, Fabian T. C. Schmidt, Marit Kristine List, Robert Glüsing, Johanna Fleckenstein |
| Erscheinungsdatum | 01.01.2026 |