Hoppla! Immerhin keine „Replizierbarkeitskrise“ in der Psychologie
Wenn Sie ein Forschungsprojekt haben - die Open Science Collaboration (OSC) -, an dem 270 Wissenschaftler teilnehmen, die an bahnbrechenden wissenschaftlichen Erkenntnissen arbeiten, würden Sie hoffen, dass sie einige der Grundlagen richtig verstehen. Als würde man eine randomisierte Studie entwerfen, die methodisch fundiert ist und der Prüfung durch Gleichaltrige standhält.Der bahnbrechende Artikel, der im August 2015 von 44 Forschern veröffentlicht wurde, „Schätzung der Reproduzierbarkeit der Psychologie“ (Nosek et al., 2015), scheint jedoch einige signifikante Mängel gehabt zu haben. Ein neuer Artikel legt nahe, dass es in der Psychologie tatsächlich keine „Replizierbarkeitskrise“ gibt.
Vier Forscher der Harvard University und der University of Virginia (Gilbert et al., 2016) veröffentlichten ihre Ergebnisse in Wissenschaft (Die Website für Psychologie-Replikationen enthält alle Daten und Materialien). Sie glauben, in der ursprünglichen Studie drei wichtige statistische Fehler gefunden zu haben, die ihre Ergebnisse ernsthaft in Frage stellen. Die neuen Forscher behaupten: "In der Tat stimmen die Beweise mit der gegenteiligen Schlussfolgerung überein - dass die Reproduzierbarkeit der psychologischen Wissenschaft ziemlich hoch und tatsächlich statistisch nicht von 100% zu unterscheiden ist."
Hoppla.
Die ursprüngliche Studie (Nosek et al., 2015) versuchte, die Ergebnisse von 100 Experimenten zu reproduzieren, die in 2008 in drei hochrangigen psychologischen Fachzeitschriften veröffentlichten Artikeln berichtet wurden. Die erste Kritik an der Studie ist, dass dies keine randomisierte Auswahl von Psychologiestudien war. Stattdessen beschränkte die Nosek-Gruppe ihre Auswahl an Studien auf nur drei Zeitschriften, die nur zwei Disziplinen der Psychologie repräsentieren, wobei wichtige Bereiche wie Entwicklungs- und klinische Psychologie weggelassen wurden. Dann haben Nosek et al. setzte ein komplexes Set willkürlicher Regeln und Kriterien ein, die tatsächlich mehr als 77 Prozent der Studien aus den drei untersuchten Zeitschriften disqualifizierten.
Forschung, die mit einer voreingenommenen Stichprobe beginnt, wird mit Sicherheit Probleme haben. Indem die Forscher nicht mit einer randomisierten Stichprobe begannen, halfen sie bereits dabei, die Voraussetzungen für ihre enttäuschenden Ergebnisse zu schaffen.
Lassen Sie uns (signifikant) die Studien ändern, die wir replizieren
Noch schlimmer als mit einer voreingenommenen, nicht randomisierten Stichprobe zu beginnen, war, wie die Forscher die Replikationen tatsächlich durchführten. Zunächst luden die Forscher "bestimmte Teams ein, bestimmte Studien zu replizieren, oder sie erlaubten den Teams, die Studien auszuwählen, die sie replizieren wollten". Anstatt Forscher zufällig Studien zuzuordnen, die repliziert werden sollen, lassen sie die Forscher wählen - indem sie die Vorurteile der einzelnen Forscher einbringen, um möglicherweise Studien auszuwählen, von denen sie glaubten, dass sie am wenigsten repliziert werden könnten.
Die neuen Studien unterschieden sich manchmal signifikant von den alten Studien, die sie zu replizieren versuchten. Hier ist nur ein (von mindestens einem Dutzend) Beispielen dafür, wie die replizierte Studie signifikante Komplikationen verursachte:
In einer anderen Studie sahen sich weiße Studenten der Stanford University ein Video von vier anderen Stanford-Studenten an, die über Zulassungsrichtlinien an ihrer Universität diskutierten (Crosby, Monin & Richardson, 2008). Drei der Diskussionsteilnehmer waren Weiß und einer war Schwarz. Während der Diskussion machte einer der weißen Studenten beleidigende Kommentare zu positiven Maßnahmen, und die Forscher stellten fest, dass die Beobachter den schwarzen Studenten deutlich länger ansahen, als sie glaubten, die Kommentare der anderen hören zu können, als wenn er es nicht konnte. Obwohl die Teilnehmer an der Replikationsstudie Studenten der Universität Amsterdam waren, sahen sie sich das gleiche Video an, in dem Stanford-Studenten (auf Englisch!) Über Stanfords Zulassungsrichtlinien sprachen.
Könnten Studenten einer Amsterdamer Universität wirklich verstehen, was positive Maßnahmen in Amerika angesichts der erheblichen kulturellen Unterschiede zwischen der amerikanischen und der Amsterdamer Gesellschaft überhaupt waren? Erstaunlicherweise sagten die Forscher, die die Replikation durchgeführt hatten, dass die Studien „praktisch identisch“ seien (und natürlich sind sie voreingenommen, dies zu sagen, da dies der Fall ist ihr Studie). Die ursprünglichen Forscher, die die signifikanten kulturellen Unterschiede in den beiden Populationen erkannten, befürworteten die neue Replikationsstudie jedoch nicht.
Gilbert und seine Kollegen fanden diese Art von Problem nicht nur in einer, sondern in vielen Replikationsstudien. Es scheint seltsam, dass Nosek et al. Ich hatte das Gefühl, dass solche Inkonsistenzen die Qualität der Studie (oder die „Wiedergabetreue“, wie die Forscher es nennen) nicht beeinträchtigen würden. Dies sind jedoch eindeutig signifikante qualitative Unterschiede, die sich sicherlich auf die Reproduzierbarkeit der Studie auswirken würden.
Wir brauchen mehr Kraft!
Eine Studie kann auf ihrem Design stehen oder fallen. Ein wesentlicher Bestandteil des Designs einer Forschungsstudie ist das Leistung. Die Replikationsstudie verwendete ein Design, das wahrscheinlich von Anfang an zum Scheitern verurteilt war. Low-Power-Designs können keine Effektgrößen erfassen, die Studien mit höherer Leistung können. Nosek und seine Kollegen entschieden sich für ein stromsparendes Design und stellten ihre negativen Ergebnisse praktisch sicher, bevor sie einen einzelnen Datenpunkt sammelten.Nosek und Kollegen brachten einige Strohmann-Argumente für die Wahl des Designs vor, die Gilbert et al. eins nach dem anderen in ihrer Antwort abgeschossen. Das Fazit von Gilbert und seinen Kollegen?
Zusammenfassend lässt sich sagen, dass keines der Argumente [der Replikationsforscher] die Tatsache bestreitet, dass die Autoren von [der neuen Studie] ein Low-Power-Design verwendet haben und dass dies (wie unsere Analysen der ML2014-Daten zeigen) wahrscheinlich zu einem Brutto führte Unterschätzung der tatsächlichen Replikationsrate in ihren Daten.
Andere Psychologieforscher führten bereits 2014 ein ähnliches Replikationsexperiment durch (Klein et al., 2014). Unter Verwendung eines leistungsstarken Designs stellten sie fest, dass die meisten von ihnen untersuchten Psychologiestudien repliziert wurden - 11 von 13 Experimenten wurden wiederholt. Um die Auswirkungen des Designs mit geringerer Leistung von Nosek et al. Zu testen, haben Gilbert et al. Schätzungen zufolge wäre die Replikationsrate der Studie von 2014 von 85 Prozent auf 34 Prozent gesunken. Ein bedeutender und aufschlussreicher Unterschied.
Was wissen wir wirklich über die Reproduzierbarkeit der Psychologie?
Mehr als wir dachten. Angesichts der Kritik von Gilbert et al. Und der mawkischen Reaktion der ursprünglichen Forscher ist es wahrscheinlicher, dass Nosek et al. Studie war kritisch fehlerhaft.
Es scheint, dass die Psychologie reproduzierbarer ist als wir dachten - eine gute Nachricht für Wissenschaft und Psychologie.
Verweise
Gilbert, D., King, G., Pettigrew, S. & Wilson, T. (2016). Kommentar zu „Abschätzung der Reproduzierbarkeit der Psychologie“. Science, 351, 1037a-1037b.
Gilbert et al. (2016). Eine Antwort auf die Antwort unseres technischen Kommentars zum Thema „Abschätzung der Reproduzierbarkeit der Psychologie“.
Klein, RA, Ratliff, M. Vianello, RB Adams Jr., Š Bahník, MJ Bernstein, et al. (2014). Untersuchung der Variation der Replizierbarkeit: Ein Replikationsprojekt „Many Labs“. Sozialpsychologie, 45, 142-152
Nosek et al. & Open Science Collaboration. (2015). Abschätzung der Reproduzierbarkeit der Psychologie. Science, 349. DOI: 10.1126 / science.aac4716
Nosek et al. (2016). Antwort auf den Kommentar zum Thema „Schätzung der Reproduzierbarkeit der Psychologie“. Science, 351, 1037. DOI: 10.1126 / science.aad9163