Daten sprechen lassen? Nein nicht immer

Frank L. Schmidt, ein angesehener Professor und Forscher an der Universität von Iowa, hielt am Samstag auf der 20. Tagung der Association for Psychological Science einen Vortrag darüber, wie wissenschaftliche Daten lügen können. Ja, das ist richtig. Empirische Daten - auch solche, die in angesehenen, von Experten begutachteten Fachzeitschriften veröffentlicht wurden - sagen regelmäßig nicht die Wahrheit.

Schmidts Vortrag war in einem der größten Ballsäle des Sheraton Hotels and Towers in Chicago, in dem der Kongress stattfindet, gut besucht. Obwohl es sich um eine ungleichmäßige Darstellung handelte, stießen Schmidts Hauptpunkte auf.

Eine davon ist, dass die naive Interpretation mehrerer Datensätze häufig die korrekteste ist - Occams Rasiermesser („die einfachste Lösung ist normalerweise die beste Antwort“). Schmidt behauptet, dass gute Forschung die einfache Struktur findet, die komplexen Daten zugrunde liegt.

Er fasste zusammen, dass es zwei Hauptgründe gibt, warum Daten in der Forschung „liegen“ können - Stichprobenfehler und Messfehler.

Schmidts größte Kritik richtete sich gegen den Fetisch der Psychologie mit Signifikanztests - z. B. statistischer Signifikanz. Er wünscht sich, dass sich die Psychologie weit von ihrer Abhängigkeit und Faszination für statistische Signifikanz entfernt, da es sich um eine schwache, voreingenommene Maßnahme handelt, die im Grunde genommen wenig über die zugrunde liegenden Daten oder Hypothesen aussagt.

Schmidt beschrieb sechs Mythen der umgebenden Signifikanzprüfung. Ein Mythos war, dass ein guter p-Wert ein Indikator für die Signifikanz ist, wenn er wirklich nur ein Hinweis auf das Leistungsniveau einer Studie ist. Ein weiterer Grund war, dass, wenn keine Signifikanz gefunden wurde, keine Beziehung zwischen den Variablen gefunden wurde (in Wahrheit kann dies einfach bedeuten, dass der Studie keine ausreichende Aussagekraft fehlte).

Die Lösungen von Schmidt sind einfach: Geben Sie stattdessen Effektgrößen (Punktschätzungen) und Konfidenzintervalle an und betonen Sie Signifikanztests insgesamt nicht.

Er beendete das Lambasting des neu entdeckten Schwerpunkts auf Metaanalysen in der psychologischen Forschung und rief speziell die Zeitschrift heraus Psychologisches Bulletin. In einer noch zu veröffentlichenden Studie untersuchten er und andere Forscher alle in der Psychologisches Bulletin von 1978-2006 - insgesamt 199 Studien.

Die Forscher fanden heraus, dass 65% dieser untersuchten Studien ein Modell mit „festen Effekten“ für ihre Metaanalyse verwendeten. Schmidt behauptete, dass in Modellen mit festen Effekten die Datenbeziehungen unterschätzt werden (um bis zu 50%) und dass die Forscher ihre Genauigkeit überschätzen (wie wenig Fehler in dieser Schätzung enthalten sind). Stattdessen bevorzugt Schmidt Modelle mit „zufälligen Effekten“, die diese Variationen besser berücksichtigen.

Er bemerkte auch, dass in 90% der untersuchten Studien keine Korrekturen für Messfehler vorgenommen wurden - einer der Hauptgründe, warum Daten in der psychologischen Forschung „liegen“ können.

Angesichts dieser Analyse schlägt Schmidt vor, dass sehr viele in von Experten begutachteten Fachzeitschriften veröffentlichte Metaanalysen zu falschen oder fehlerhaften Schlussfolgerungen führen.

Leider ist es unwahrscheinlich, dass sich dieser Zustand bald ändert. Während viele psychologische Fachzeitschriften strengere Standards für die Veröffentlichung von Forschungsergebnissen festgelegt haben, die den Vorschlägen von Schmidt besser entsprechen, haben viele offenbar immer noch nicht die Absicht, dies zu ändern.

Für den Durchschnittsbürger bedeutet dies, dass Sie nicht jeder veröffentlichten Studie vertrauen können, nur weil sie in einem von Experten begutachteten Journal erscheint, das dann in einer Pressemitteilung in den Medien als „Tatsache“ veröffentlicht wird. Solche Tatsachen sind formbar, veränderlich und fehlerhaft. Nur durch sorgfältiges Lesen und Analysieren solcher Studien können wir den Wert der von ihnen präsentierten Daten verstehen.

!-- GDPR -->