Die Aussage von kodi halte ich für statistisch und forschungsmethodisch bedenklich :
1.) Eine niedrige Effektstärke bei hoher Signifikanz sagt dir sehr eindeutig, dass da etwas ist und dass es scheißegal ist. Eine hohe Effektstärke ohne Signifikanz sagt überhaupt gar nichts aus (nur werden solche Studien nicht publiziert). Das widerspricht deiner gesamten Argumentation und ist in NRW Thema im Mathematik Abitur (Signifikanz und Relevanz). Man kann übrigens auch die Teststärke einer Studie berechnen, um den Fehler 2. Art auf den du hier anspielst auch klein zu halten, dann kann man auch recht sicher nachweisen, dass ein Effekt nicht da (wird aber ehrlicherweise ganz selten gemacht, weil keine Sau "Nicht-Effekte" publizieren möchte).
2.) Die Studien die Hattie einbezieht, sind alle in peer-reviewed Journals erschienen, d.h. die Wahrscheinlichkeit, dass da grob gepfuscht worden ist, ist zumindest so klein wie es eben möglich ist. Die Testgütekriterien der Einzelstudien dürften da Gutachter vom Fach geprüft haben.
3.) Man kann jeder Metastudie vorwerfen, dass darin gezielt Studien weggelassen worden sind, um bestimmte Effekte kleinzurechnen. Das große Problem dabei ist aber doch, dass das ein super einfach nachzuweisender methodischer Fehler ist. "Die Metastudie sagt: Da ist kein Effekt." - "Hier sind drei Artikel aus Nature und Science die das Gegenteil behaupten
4.) Und das ist ein eher allgemeiner Hinweis: Metastudien sind methodisch doch recht anspruchsvoll, man kann dabei viel falsch machen, Hattie hat ein paar Dinge auch nachweisbar falsch gemacht. Nur: Ich finde, man muss da forschungsmethodisch schon ein bisschen mehr auf dem Kasten haben, als der durchschnittliche empirisch arbeitende Professor (und die meiste Kritik kommt von Personen, deren empirische Qualifikation ungefähr dem Level von Hilbert Meyer entspricht)...aus meiner Sicht schwierig da so drüber zu reden.
Was man Hattie vorwerfen kann ist, dass er zu sehr verallgemeinert. Nehmen wir als Beispiel das entdeckende Lernen: extrem gut bei starken Schülern, extrem nutzlos bei schwachen Schülern. Solche Moderations- und Mediationseffekte macht eine Metastudie halt völlig platt. Die Grundaussagen sind aber trotzdem richtig.