Aus der Serie "Doktorarbeiten mit methodischen Mängeln": Max und Murat

  • Der Unterschied beim besseren Diktat ist ja auch zu vernachlässigen, was im Übrigen gemäss Publikation der Erwartung der Autoren entspricht. Ich bin grad dabei mal die komplette Veröffentlichung zu lesen...

  • Was ich bei der Studie - zusätzlich zu den Ergebnissen - amüsant finde, ist auch die Tatsache, dass man, was Bewertungen im Schulalltag angeht, an der Uni ja relativ wenig lernt...das kommt doch oft erst im Referendariat oder im Job. Zu der realen Schulerfahrung der Partizipierenden:


    The participants in this study were 203 pre-service teachers (69.3% female) who were enrolled in a teacher training program at a university of education in Germany. They had a mean age of 23.39 (SD = 3.42) and a mean teaching experience of 2.12 months (SD = 12.21). All pre-service teachers were German and German native speakers. Within this sample, 86.8% of them had already successfully completed a school teaching internship as a mandatory part of their program.
    The participants were recruited via notices posted on campus and through personal contacts. They received three Euros and chocolate for participating.

    --> wir haben damals im Fachseminar auch eine Arbeit bekommen (EF, Deutsch, ohne EW) und in verschiedenen Gruppen wurde die Arbeit zwischen ausreichend und gut bewertet. Ist ja auch bei einer Textanalyse etc. viel einfacher als bei einem, wie hier in der Studie, vorliegendem Diktakt von angeblichen Drittklässlern. Gerade ein Diktat eignet sich doch besonders wenig für eine solch variable Bewertung :/ Hier hätte man wirklich "sinnvoller" arbeiten können. Aber vielleicht wären dann nicht diese in aktuellen Diskussion so wunderbar brauchbaren, polemisch verkürzten Ergebnisse herausgekommen. Und wer hinterfragt die Studie überhaupt? Letztendlich kursiert dann nämlich auch nur für die Jugend etc. auf Instagram Sowas hier - und gleich fühlen sich alle in ihren Reaktionen bestätigt und haben eigene Anekdoten für ihre Benachteiligung :autsch:

  • Ähm... Gerade das Diktat eignete sich besonders gut um zu zeigen, was dann ja auch rauskam. Alles andere hätte ja nur zusätzliche Hintergrundvariablen implementiert. Was die Medien aus den Ergebnissen machen, dafür können die Leute nichts, die die Studie veröffentlicht haben. Auch die Auswahl der Probanden mit noch fast gar keiner Lehrerfahrung passte zur Fragestellung. Vielleicht einfach mal die ganze Studie lesen. Da alle auf dem Campus der Uni Mannheim rekrutiert wurden und eben so gut wie keine Lehrerfahrung hatten, erübrigt sich auch die Spekulation über die bewusst angewandten Notenschlüssel. Diese bewusste Entscheidung hat sicher nicht stattgefunden.

  • Gerade ein Diktat mit einem - eigentlich - so eindeutigen Zusammenhang von Fehlerzahl und Note bietet sich hier ja nicht an - da gibt es keinen Spielraum, wenn man den EW dazugibt. Wenn man keinen Erwartungshorizont anbietet, kommt natürlich was Unterschiedliches heraus, wenn nicht einmal die Kriterien genannt werden außer "welche Note würdest du denn hier so gefühlstechnisch mal geben". Komplexe Hintergrundvariablen gehören nunmal bei unseren pädagogischen Noten dazu :)

    The participants were asked to rate the performance of the shown dictation by giving it a grade and counting the number of errors (dependent variable). The participants could enter the errors and the grade in an open field. (“How many mistakes did the dictation have?” and “What grade would you award the student for this dictation?”). They were asked to apply the German grading system (range from 0.75 to 6.00 with 0.75 indicating the best performance and 6 the worst performance) when grading and to count the mistakes in terms of the errors they found.


    --> das hat meines Erachtens nichts mit schulischem Bewerten von Klassensätzen einer Arbeit zu tun. Deshalb hat diese Studie deutliches Potential für eine Optimierung.

  • Interessant wäre ja auch einmal zu wissen, ob diese Forscher mit dem Beginn ihrer Forschung einfach so elfenbeinturmmäßig drauflosgeforscht haben, oder ob sie vorher beim Studiendesign ein paar Lehrkräfte mit Praxiserfahrung gefragt haben...


    Gruß !

    Mikael - Experte für das Lehren und Lernen

  • Zur Studie: https://www.frontiersin.org/ar…fpsyg.2018.00481/full#B28


    Die ursprüngliche Forschungsfrage zu verfolgen und dann zu sagen "Total egal, ob der Prüfling Murat oder Max heißt, die angehenden Lehrkräfte sind offenbar bei der Bewertung nicht ausländerfeindlich", ist offenbar nicht reißerisch genug. Zumal in einem echten Diktat Murat sich zu recht beschweren würde, wenn Max bei gleicher Punktzahl eine andere Note hätte.

    Bei "selbst schuld" wird nicht gepustet!

  • Frontiers ist eine brauchbare psychologische peer-reviewed Zeitschrift und Oliver Dickhäuser (der Betreuer der Dissertation) habe ich bisher noch nie als Meister des Unsinns erlebt. Ich lese mir das später mal in Ruhe durch.


    2 Anmerkungen:


    @Jens_03: Natürlich kann man einen Mittelwert aus Noten bilden, das wäre der Median.
    @Mikael: Natürlich wäre es für die universitäre Pädagogik deutlich besser, wenn weiterhin einfach irgendwelche Leute ihre Theorien publizierten ohne diese jemals auf ihren Wahrheitsgehalt zu prüfen. Auch dein Artikel tut so als wäre er etwas weltbewegend Neues, was noch nie einem Mathematiker oder Psychologen in den Sinn gekommen wäre. Das dort genannte Problem könnte man in 99% der Fälle durch Bonferroni-Korrektur beheben, der Grund warum das nicht passiert liegt nicht in fehlendem Wissen darum, sondern in der Angst dann weniger publiziert zu bekommen, dadurch weniger Forschungsgelder zu bekommen und dann weg vom Fenster zu sein. Also ein Fehler in der Finanzierung, nicht im statistischen Wissen. Brauchst du noch Artikel aus richtigen Fachzeitschriften oder glaubst du mir auch so, dass du da bei fast allen empirisch Forschenden offene Türen einrennst? :autsch:

    If you look for the light, you can often find it.
    But if you look for the dark that is all you will ever see.

  • Gerade ein Diktat mit einem - eigentlich - so eindeutigen Zusammenhang von Fehlerzahl und Note bietet sich hier ja nicht an - da gibt es keinen Spielraum, wenn man den EW dazugibt.

    Genau das war aber die Fragestellung und die hast Du offensichtlich nicht verstanden oder Du hast (wahrscheinlicher) die Publikation immer noch nicht vollständig durchgelesen. Nebenbei bemerkt ist es unhöflich, sich selbst "Sensei" zu nennen, die korrekte Bezeichnung wäre "Kyoushi".



    Interessant wäre ja auch einmal zu wissen, ob diese Forscher mit dem Beginn ihrer Forschung einfach so elfenbeinturmmäßig drauflosgeforscht haben, oder ob sie vorher beim Studiendesign ein paar Lehrkräfte mit Praxiserfahrung gefragt haben...

    Lies Dir doch die Publikation durch, dann weisst Du auch, welchen Aufwand die vor der eigentlichen Studie betrieben haben.



    Wahnsinns Ergebnis. Hab ich noch nie gesagt, heute also zum ersten Mal: "und dafür zahlen wir Steuergelder?"

    Empirische Forschung im Bereich der Pädagogik verfolgt den Zweck, diesen Bereich aus der Welt der Binsenweisheiten und des hab-ich-immer-schon-so-gesagts herauszuholen. Wenn ich nun sage, meinem Gefühl nach könnte es den Garvorgang beschleunigen, die Kartoffeln bei 120 °C in einem Dampfdruckkochtopf zu kochen, muss ich das auch erstmal in einer sorgfältig geplanten Versuchsreihe zeigen um meine Hypothese als Allgemeingültigkeit verkaufen zu können. Zum Glück haben das in dem Fall bereits andere für mich erledigt, auf die ich mich berufen kann. Das ist gut, denn so muss ich das nicht jedes mal aufs Neue experimentell bestätigen, bevor ich es meinen Schülern erzähle. Es ist schon seltsam, dass diese Praxis im Bereich der Naturwissenschaften allgemein akzeptiert ist, im Bereich der Pädagogik aber ein ums andere mal bestenfalls belächelt und schlimmstenfalls verrissen wird.

  • In der momentanen gesellschaftlichen Lage finde ich jedenfalls gefährlich mal oberflächlich rauszuposaunen, dass Lehrer Murat benachteiligen, wenn das gar nicht so klar ist.

  • oberflächlich rauszuposaunen

    Hat ja auch keiner. Hast *Du* denn die Publikation gelesen? Falls die Antwort "nein" ist, würde ich mich mal lieber zurückhalten, darüber oberflächlich zu urteilen.

  • Glaubst du denn jeder der Welt-Leser macht das?


    Ich lese eine Überschrift:
    "Murat bekommt für dasselbe Diktat eine schlechtere Note als Max"
    Ich lese den Eingangssatz:"in Diktat, gleich viele Fehler – doch die Lehrer vergeben dafür unterschiedliche Noten. Murat bekommt für identische Leistungen im Fach Deutsch eine schlechtere Beurteilung als Max. Das wiesen Forscher der Universität Mannheim in einer experimentellen Studie nach."


    Und mehr liest doch der Welt-Leser nicht. Und das wird sicher nun auch weiter in andere Medien verteilt.



    Und dann noch:
    "Dass es überhaupt möglich ist, ein Diktat so unterschiedlich zu bewerten, liegt daran, dass es keine klaren Standards für die „Urteilsfindung“ der Lehrer bei einer Benotung gebe, erklärt Meike Bonefeld, Mitautorin und Leiterin der Auswertungen. Lehrer dürfen also beispielsweise im Diktat auch andere Faktoren als die Fehler heranziehen – beispielsweise das Schriftbild. Die Begründungen für die erstaunlichen Unterschiede in der Bewertung derselben Leistungen von „Max“ und „Murat“ seien aber nicht mehr nachzuvollziehen."


    Das lesen die meisten schon nicht mehr. Ist aber eigentlich eine Falschaussage.

  • Und mehr liest doch der Welt-Leser nicht.

    Hier diskutieren wir aber unter Lehrern, also ausgebildeten Akademikern. Da erwarte ich schon, dass man sich mit der Sache differenzierter auseinandersetzt bevor man lospoltert. Wir Naturwissenschaftler müssen im Übrigen auch damit leben, dass die Medien alle Nase lang Studienergebnisse zu irgendwas aufblähen, das die veröffentlichenden Forscher für sich selbst gar nicht beanspruchen. So ungefähr jeder Ernährungsmythos lässt sich z. B. auf solche Aktionen zurückführen. Nachdem ich die Studie gelesen habe, denke ich, dass die Max-und-Murat-Geschichte erheblich seriöser dasteht als "Salz macht süchtig!". SPON stellt die Sache übrigens deutlich differenzierter da, als die Welt. Darauf habe ich aber gestern schon mal hingewiesen.

  • Auch wenn wir HIER unter Lehrern diskutieren, darf ich es dennoch nicht gut finden, in der aktuellen Lage sowas so ungefiltert und dann noch mit fehlerhaften Informationen rauszuposaunen.

  • Ich urteile, dass die im Weltartikel fehlerhaft sind. Denn gerade bei Diktaten gibt es klare Standards. Ist Studenten im 3. Semester vielleicht nicht bekannt.

  • @Jens_03: Natürlich kann man einen Mittelwert aus Noten bilden, das wäre der Median.

    Ist mir klar. Aus dem Kontext der Verwendung der Abkürzung M im Paper, mit bspw. der Angabe, dass beim Alter M=22,28 Jahre ist, bezweifle ich, dass der/die Teilnehmende Nr.XYZ zum Zeitpunkt der Untersuchung 22 Jahren und 102,27 Tage alt war. Naheliegender dürfte die Erfassung des Alters mit 22 Jahren, etc. sein, woraufhin M dann vermutlich das arithmetische Mittel darstellt.
    Da die Autoren nicht deutlich machen, dass sie eventuell doch in einer Tabelle dann mit M den Median meinen, ebenso nicht angeben, ob die Teilnehmenden die Noten auf zwei Nachkommastellen angeben sollten (sonst kommen wir nicht auf den Median=1,87, etc.), gehe ich davon aus, dass wir eben keinen Median haben, sondern einen wie auch immer berechneten anderen Mittelwert.

    Bei "selbst schuld" wird nicht gepustet!

  • Ich urteile, dass die im Weltartikel fehlerhaft sind. Denn gerade bei Diktaten gibt es klare Standards. Ist Studenten im 3. Semester vielleicht nicht bekannt.

    Dann urteilst Du falsch. Zitat aus der Welt:


    "Das Team des Lehrstuhls Pädagogische Psychologie um Oliver Dickhäuser wollte wissen, ob angehende Lehrer die Leistungen von Schülern mit ausländischen Wurzeln anders beurteilen als jene mit deutschem Hintergrund."


    Das ist korrekt. Die Fragestellung zielte nämlich *nicht* darauf ab, ob das Diktat von einer erfahrenen Lehrperson in der Realität und nach einem festgelegten Notenschlüssel ebenso mangelhaft beurteilt worden wäre. Ziel der Studie war es, genau das zu zeigen: ein festgelegtes Beurteilungsraster sollte es bei *jeder* Leistungskontrolle geben um genau das zu vermeiden, worauf die Probanden eben reingefallen sind. Am besten liess sich dies eben anhand eines Diktats zeigen, bei dem einmal Fehler gezählt werden (da gibt es eben nur richtig oder falsch, unabhängig vom Namen des Kindes) und einmal ohne vorher festgelegtes Bewertungsraster eine Note vergeben wird. Die Studie ist ganz bewusst so aufgezogen worden, das wüsstest Du, hättest Du sie eben gelesen.


    Es ehrt Dich, dass Du immer nach einem festgelegten Bewertungsraster korrigierst. Wir hatten in diesem Forum aber nicht nur einmal die Diskussion darüber, dass das gerade bei Aufsätzen & Co. längst nicht von allen Kollegen so gehandhabt wird.

Werbung