Eine der prominentesten Studien zum Thema 'Un-/Sichtbarmachung' und offenbar 'Kronzeuge' für diese Effekte präsentierten immer noch Stahlberg & Sczesny (2001), die damals experimentell belegt haben wollen, dass "durch die maskuline Form [...] weibliche Personen weniger vorstellbar oder sichtbar [...] als männliche Personen" seien.
Die eigenen Daten der beiden Autorinnen sind allerdings ernüchternd: „Im Gegensatz zum Geschlecht der Befragten erwies sich die Einstellung der Befragten zu geschlechtergerechter Sprache als relevante Moderatorvariable [….].: Die Sprachversion hatte primär dann einen Einfluss, wenn die befragte Person eine positive Einstellung besaß. Dieser Befund ist insbesondere deshalb interessant, da er nahelegt, daß Änderungen in der gesellschaftlichen Einstellung zum Gebrauch geschlechtergerechter Sprache bzw. ausschließlich generisch maskuliner Formen zu unterschiedlichen Interpretationen des generischen Maskulinums führen können“ (S. 138). Nicht die "Sprachversion" war ausschlaggebend, sondern die "Einstellung" der Probanden, was kein überraschender Befund ist, die Autorinnen allerdings kurioserweise nicht bewog, ihr Fazit entsprechend anzupassen.
Damit ist diese Studie aber typisch für Studien in dieser Disziplin. In diesem Metier, in dem ohnehin unterkomplexe, bivariate Wirkungsanalysen dominieren, die bereits infolge ihrer Unterkomplexität keine Drittvariableneffekte analysieren können und damit vermeintl. 'Effekte' des 'Un-/Sichtbarmachens' nicht nur nicht eindeutig, sondern tendenziell föälschlich "Sprachversion[en]" attribuieren, wo diese evtl. Aber Resultate von Präsuppositionen der Probanden sind, ist "Einstellung" der Probanden eine Variable, die ich im Gros der einschlägigen Forschung vermisse (und die dort, wo sie ausnahmsweise gemessen wird, ebenfalls unterkomplex opretationalisiert wird).
Ohne jetzt die m.E. evidenten methodischen Defizite z.B. der Studie insb. hinsichtlich ihrer Operationalisierungen zu diskutieren (Stichwort: Konstruktvalidität) und auch ungeachtet dessen, dass die absoluten Messwerte zwischen den Versuchs- und Kontrollgruppen in der Studie ggf. zwar statistisch signifikant divergieren, aber wohl keinen substanziell signifikanten Unterschied zwischen den Gruppen markieren (ebenfalls ein endemisches Problem der Disziplin), die Demonstration rein statistisch signifikanter Unterschiede zwischen Versuchs- und Kontrollgruppen ohnehin nicht sehr brauchbar erscheint (wichtig wäre die Messung von Effektstärken, bevor wir überhaupt beginnen, die Ergebnisse zu interpretieren und diese dann vielleicht sogar zu diskutieren), demonstrierte die Studie damit allenfalls das Folgende: Das generische Maskulinum wird erst dann zum Problem, wenn wir es zu einem machen. Das individuelle mindset scheint das Problem zu sein.
Andere Studien haben hier auch keinen Erkenntnisgewinn gebracht, so z.B. die Versuche nachzuweisen, dass das gewnerische Maskulinum nicht generisch wahrgenommen würde. Studien, in denen durchweg die erwähnte Moderatorvariable ignoriert wurde. Bspw. Die ebenfalls regelmäßig unkritisch-affirmativ rezitierten Gygax et al (2008).
Den Probanden wurden Sätze mit offenem Ende präsentiert: „Each participant saw 18 continuations about women, 6 following sentences with a female stereotyped role name, 6 following sentences with a neutral stereotyped role name and 6 following sentences with a male stereotyped role name, and 18 about men. [….] In our experiment each participant saw 12 continuations of each type. Across the experiment, we created six lists to ensure that each role name was equally often followed by men and women, and by sentences portraying different situations. […] In all experimental conditions the intended response was yes (the second sentence is a sensible continuation of the first). […] The participants […] were asked to make a prompt decision, based on their first impression and not on a prolonged reflection. […] The participants pressed the yes button to make the first sentence appear, and then pressed the yes button again to make the second sentence (target sentence) appear. They then had to make a prompt decision by pressing either the yes button (i.e., I think it’s a sensible continuation) or the no button (i.e., I don’t think it’s a sensible continuation). Participants were asked to keep the index finger of their dominant hand on the yes button and the index finger of their non-dominant hand on the no button. […] there was a main effect of Continuation, with more positive judgements when the continuation sentences mentioned men (M = .69) than when they mentioned women (M = .40). […] A significant Continuation effect […] with responses to men being faster than those to women fully supported the results found in the judgements. There was neither effect of Stereotype […] nor an interaction […].“
Bedauerlicherweise dokumentiert die Studie keinen kumulierten Wert für female, male und neutral stereotypes. Auch absolute Werte für die „Proportion of positive judgements across languages and conditions“ fehlen (sprich: Wie oft „positive positive judgements“ etc. vorgenommen wurden), ebenso die dazugehörigen Standardabweichungen. Bei den „Mean positive judgement times“ haben wir die typischen Probleme und Unzulänglichkeiten von psychologischen Reaktionszeittests, gerade was deren Interpretierbarkeit betrifft: Einfach mal die absoluten Werte in TABLE 3 (S. 478) angucken (die Maßeinheit sind Millisekunde) und dann bitte auf die (bei der Methode nicht überraschend) immensen Standardabweichungen schauen. Es fehlt der Studie leider an Grundlegendem: Es werden lediglich bivariate Zusammenhänge gemessen, folglich erfolgt keine probate Drittvariablenkontrolle: Gerade bei dem Thema bspw. bereits den naheliegendsten Konfunder – das Geschlecht(!) –, zu ignorieren, ist untragbar. Effekstärkemaße? Fehlanzeige. Stattdessen wieder der Verlass auf statistische Signifikanz…
Beispiele für weitere Probleme:
1. Die Probanden schöpfen sich aus einem convenience sample, über dessen Hetero- bzw. Homogenität wir nichts wissen, außer dass es sich um Studenten handelt, die für credit points an der Studie teilgenommen haben. Als Studenten (u.U. sogar durchgehend aus einer Disziplin) sind sie nicht repräsentativ für die Allgemeinbevölkerung. Zudem ist es ist recht üblich, mind. Alter und Geschlecht zu dokumentieren, um relativ häufige Konfundierungen auszuschließen und Rückschlüsse auf die Extrapolierbarkeit der Ergebnisse auf die Gesamtbevölkerung ziehen zu können. Auch weitere (bspw. individualbiographische) Faktoren werden aus diesen Gründen regelmäßig erhoben. Das fehlt hier alles.
2. Die ganze Studie ist ein Quasi-Experiment ohne Kontrollgruppe (stattdessen gibt es lediglich eine Kontrollaufgabe). Das beeinträchtigt die interne Validität u.U. erheblich, da somit Konfundierungen (antezedierende, intervenierende, verdeckte Beziehungen) nicht ausgeschlossen werden können, die einen eigenständigen Einfluss auf die abhängige(n) Variable(n) haben können.
3. Selbst wenn die Studie sonst jeder Kritik standhalten würde, wäre ja auch die Frage offen, wie lang denn entsprechende Wahrnehmungen anhalten: Die Probanden sollten ja ausdrücklich Spontanurteile fällen (und längere Nachdenkzeiten wurden herausgerechnet), aber was ist, wenn es nur ein paar weiterer Millisekunden des Nachdenkens bedarf (die in realweltlichen Situationen regelmäßig zweifellos zur Verfügung stehen), um die positive judgments in allen Konstellationen in die Höhe schießen zu lassen? Da ist die ökologische Validität abermals stark in Mitleidenschaft gezogen…
Etc.
Stahlberg, Dagmar; Sczesny, Sabine (2001): Effekte des generischen Maskulinums und alternativer Sprachformen auf den gedanklichen Einbezug von Frauen. Psychologische Rundschau, 52, 131-140.
Gygax, Pascal et al. (2008): Generically intended, but specifically interpreted: When beauticians, musicians, and mechanics are all men. In: LANGUAGE AND COGNITIVE PROCESSES 2008, 23 (3), 464-485.