News

„Mehr Transparenz, wie Wissenschaft funktioniert“

29.01.2024

Warum lassen sich manche Studien nicht replizieren und was lässt sich daraus lernen? Ein Interview mit Psychologe Mario Gollwitzer und Soziologe Andreas Schneck.

Wenn wissenschaftliche Studien wiederholt werden, sollte dasselbe Ergebnis herauskommen. Vor einigen Jahren zeigte sich im Fach Psychologie, dass das bei vielen bekannten Experimenten nicht der Fall war. Das Fach erlebte eine „Replikationskrise“. Ist diese inzwischen überwunden?

Darüber sprechen im Interview Professor Mario Gollwitzer und Dr. Andreas Schneck. Die beiden LMU-Wissenschaftler forschen darüber, wie sich die Replizierbarkeit wissenschaftlicher Studien verbessern lässt (Projekt META-REP). Im Interview erläutern sie, warum manche Ergebnisse nicht haltbar sind, welche Fächer das betrifft und was das für Forscherinnen und Forscher sowie ihre Ausbildung bedeutet.

Beginnen wir das Gespräch mit einem Rückblick: Was war der Auslöser für die Replikationskrise im Fach Psychologie?

Mario Gollwitzer: Im Jahr 2015 wurde versucht, 100 bekannte Experimente aus der allgemeinen und der Sozialpsychologie zu replizieren. In den Originalstudien gab es in 97% aller durchgeführten Tests Bestätigung für die jeweilige Hypothese; in den Replikationsstudien war dies nur in 36% der Fall. Das war natürlich ein Schock für die gesamte wissenschaftliche Gemeinschaft.

Zur Publikation: Are most published research findings false?

Weiterlesen

Herr Schneck, Sie haben in einer neuen Publikation gleich 35.000 psychologische Studien überprüft, die zwischen den Jahren 1975 und 2017 veröffentlicht wurden. Warum war das noch mal nötig?

Andreas Schneck: Bei meiner Studie geht es um die Frage, wie viele der angeblich signifikanten Ergebnisse fälschlicherweise signifikant sind und wie viele tatsächlich einen wahren Kern haben. Wir nennen das die False Discovery Rate oder falsche Entdeckungsrate. Ich habe das übrigens nicht deshalb in der Psychologie gemacht, weil sie das schwarze Schaf unter den Sozialwissenschaften ist, sondern weil sie die einzige Disziplin ist, die seit den 1970er-Jahren sehr strikte Standards dafür hat, über statistische Tests zu berichten. Nur dank dieser Standardisierung kann man mit automatisierten Methoden überhaupt eine ausreichend große Datenbasis generieren, um diese Frage zu untersuchen. In der Soziologie, meiner Disziplin, ist die Art des Berichtens dafür zu heterogen.

Was haben Sie in Ihrer Studie herausgefunden?

Schneck: Ich wollte einen ersten Anhaltspunkt bekommen, wie problematisch die Lage wirklich ist. Wenn man davon ausgeht, dass die Forschenden ihre Daten nicht gefälscht oder manipuliert oder irgendwelche Tricks angewendet haben, liegt die False Discovery Rate unter gewissen Annahmen bei etwa 7 Prozent, das ist eigentlich relativ gut. Wenn man aber wissenschaftliches Fehlverhalten einbezieht, steigt der Wert substanziell auf 16 Prozent. Das wären dann schon recht viele falsch positive Ergebnisse. Die gleichen Probleme gibt es sicherlich auch in der Soziologie.

Prof. Mario Gollwitzer und Dr. Andreas Schneck sitzen an einem Besprechungstisch

Prof. Mario Gollwitzer und Dr. Andreas Schneck

arbeiten im Projekt META-REP daran, die Replizierbarkeit wissenschaftlicher Studien zu erhöhen.

© LMU/Stephan Höck

Replikationsprobleme betreffen mehrere Disziplinen

Könnte es auch andere Fächer betreffen?

Gollwitzer: Es gab ähnliche Replikationsprojekte wie 2015 in der Psychologie zum Beispiel in den Wirtschaftswissenschaften. Die Anzahl der signifikanten Effekte, die man erfolgreich replizieren konnte, war hier mit 61% höher als in der Psychologie, jedoch auch weit von einem zufriedenstellenden Maß entfernt.

Auch die Neurowissenschaften sind betroffen. Dort ist das Problem, dass man schon alleine wegen der aufwendigen Methoden meist eine eher kleine Anzahl von Versuchspersonen untersuchen kann. Mit geringen Fallzahlen sinkt aber eben auch die statistische Power und die Chance, einen Effekt zu finden, falls er existiert. Diese Einsicht sickert inzwischen durch und ändert die Praktiken. Wir haben ein Projekt im META-REP-Schwerpunktprogramm, das sich mit der Replizierbarkeit von Elektroenzephalographie(EEG)-Studien, also Experimenten, in denen Hirnaktivitäten gemessen werden, befasst. Mehr als 20 Teams tun sich zusammen, um Effekte zu replizieren, die in früheren Studien gefunden wurden. Nur durch diesen Zusammenschluss ist es überhaupt möglich, auf akzeptable Fallzahlen zu kommen.

Statistische Power und untersuchte Fälle

Was kann dazu führen, dass etwas falsch positiv publiziert wird?

Schneck: Wie viel Information in statistischer Signifikanz liegt, hat mit der sogenannten statistischen Teststärke (oder auch „Power“) zu tun, also mit der Frage, wie viele wahre Ergebnisse man überhaupt in der Lage ist zu entdecken. Wenn sie gering ist, sinkt der Informationsgehalt der Signifikanz.

Die statistische Power wiederum hängt, vereinfacht gesagt, erst einmal von den Fallzahlen ab. Bei sehr kleinen Fallzahlen ist es unwahrscheinlich, dass man statistisch präzise Effekte identifizieren kann. Verschärfend kommen bestimmte Formen des akademischen Fehlverhaltens hinzu, also wenn aus nicht signifikanten Ergebnissen durch Herumrechnen signifikante Ergebnisse gemacht werden. Man bezeichnet das als p-Hacking, bei dem nicht existierende Effekte so lange mit statistischen Verfahren traktiert werden, bis man doch noch irgendwie zufälligerweise signifikante Ergebnisse findet. Dazu zählt zum Beispiel, dass man Ausreißer, d.h. extreme Datenpunkte, ausschließt, ohne dass dies im Vorfeld begründet wurde. Gerade in der Soziologie, wo oft große Datensätze basierend auf Beobachtungsdaten (z.B. aus Befragungen) verwendet werden, gibt es zudem Möglichkeiten, so lange Variablen auszutauschen, bis man durch Zufall ein signifikantes Ergebnis findet.

Muss man dabei gleich bösen Willen unterstellen?

Schneck: Nein, überhaupt nicht. Ich glaube, es liegt einerseits daran, dass die Anreizstruktur in der Wissenschaft stark darauf ausgerichtet ist, Entdeckungen zu belohnen. Nicht signifikante Ergebnisse sind schwieriger zu verkaufen.

Gollwitzer: In den Begutachtungsverfahren bei wissenschaftlichen Zeitschriften wird belohnt, wenn man zeigen kann, dass eine Hypothese sich bewahrheitet und die gesammelten Daten im Einklang damit stehen. Wenn Ergebnisse dagegen einmal nicht zur Bestätigung der Hypothese beitragen, fragen Gutachter und Herausgeber häufig: Was sagt uns das denn jetzt?

Schneck: Das ist in der Soziologie nicht anders. Es herrscht ein gewisser Druck, signifikante Ergebnisse zu produzieren, auch um sich nicht gegen eine große theoretische Literatur zu stellen, die einen Effekt begründet sieht.

Replizierbarkeit erhöhen

Wie geht man mit wissenschaftlichem Fehlverhalten am besten um?

Gollwitzer: Wir versuchen im Schwerpunktprogramm META-REP konstruktiv an die Frage heranzugehen, wie man Replizierbarkeit erhöhen könnte. Eine der Leitfragen ist, wie gute Meta- und Replikationsforschung aussehen kann. Wie kann man eine Replikationsstudie so gestalten, dass überhaupt die Chance besteht, ein wahres positives Ergebnis zu replizieren? Auf diese Frage gibt es noch keine wirklich gute Antwort. Macht es überhaupt Sinn, eine Studie aus dem Jahr 1977 mit demselben Material heute im Jahr 2024 nochmals genauso durchzuführen? Es ist eine gewagte Annahme zu behaupten, da komme 50 Jahre später bestimmt wieder dasselbe heraus.

Aber es gibt auch Bewegungen innerhalb der Wissenschaft, die eine eher destruktive Herangehensweise verfolgen. Beispielsweise solche, die sich auf die Fahne geschrieben haben, Menschen, von denen man annehmen kann, dass sie wissenschaftliches Fehlverhalten betrieben haben, öffentlich bloßzustellen. Das halte ich sowohl moralisch als auch wissenschaftssoziologisch für hochproblematisch.

An der LMU gibt es ein Open Science Center. Was kann der offene Zugang zu Forschungsdaten dazu beitragen, dass wissenschaftliche Ergebnisse replizierbar sind?

Gollwitzer: In meinem Fach wird gerade heiß diskutiert, wie die Kosten und der Nutzen verschiedener Maßnahmen zu gewichten sind. Ob man zum Beispiel mit dem Offenlegen von Daten tatsächlich die Replikationsraten substanziell erhöhen kann, weil andere sie tatsächlich nutzen und prüfen. Die Chance, dass das passieren könnte, besteht, aber zu wenige Leute machen das. In der Psychologie gibt es wahnsinnig viele Datensätze, die öffentlich verfügbar sind, aber erstaunlicherweise werden sie bislang nur selten von anderen nachgenutzt.

Warum nicht?

Gollwitzer: Weil sie niemand versteht. Mich würde es bei einem Datensatz, der auf dem Open Science Framework liegt, Tage kosten, um zu begreifen, was da genau wie codiert wurde, wie die Variablen zu verstehen sind, ob die Daten überhaupt zuverlässig sind. Inzwischen gibt es Ideen, wie man eine einheitliche Codierung erarbeiten kann. Aber der Nutzen von Offenheit und Transparenz wird noch nicht genügend in Anspruch genommen. Gleichzeitig ist der bürokratische Aufwand, der damit verbunden ist, recht hoch.

Schneck: In der Soziologie trifft das bei der Datenaufbereitung in etwas anderer Form ebenfalls zu. Auch die Modellierungsprozesse sollten über den Analysecode transparent gemacht werden. Das Nachvollziehen kostet extrem viel Zeit, je nachdem wie der Code dokumentiert ist. Es hängt auch davon ab, ob die Datenerhebung von Anfang an „offen“ gedacht wurde oder ob die Daten erst danach kurzfristig verfügbar gemacht wurden. Sonst dauert es sehr lange, um sich in den Analyseprozess einzudenken und ihn nachzuvollziehen.

Über Chancen und Grenzen wissenschaftlicher Studien informieren

Was bedeutet die Problematik, Studien zu reproduzieren, für Medien und Gesellschaft? Könnte der Eindruck entstehen, dass man der Wissenschaft nicht mehr trauen kann?

Gollwitzer: Wir beschäftigen uns bei mir am Lehrstuhl auch mit dem Thema „Vertrauen in Wissenschaft“. Wenn man Menschen explizit sagt „In dieser Studie ist das rausgekommen. Aber Achtung! Diese Ergebnisse sind vorläufig. Wir wissen noch nicht, ob das repliziert werden kann“, ist das eine Zusatzinformation, von der Forschende immer fürchten, dass sie Menschen verunsichert. Die Forschung dazu zeigt aber: Das Ausmaß an Vertrauen in die Wissenschaft sinkt dadurch nicht. Was das Vertrauen hingegen wirklich reduziert, ist die Information, es gebe eine große Krise in der Wissenschaft und nur 30 Prozent der Studien seien replizierbar. Das verschreckt und macht misstrauisch, was ja im Prinzip gut ist. In der Kombination bedeutet das, dass mehr Transparenz darüber stattfinden muss, wie Wissenschaft funktioniert, welche Grenzen sie hat und welche Chancen sie birgt.

Schneck: Natürlich funktionieren Medien anders als die Wissenschaft. Dort zählen die unerhörte Begebenheit, der Gamechanging-Moment und die hohe Aktualität, die natürlich eher in Einzelstudien zu finden sind als in großen Metaanalysen. Oft erkennt man wissenschaftstheoretisch ja erst nach einer Weile, was ein gewisser Befund ausgelöst hat, ob die Studie replizierbar und belastbar ist oder ob das Ergebnis eine Singularität bleibt. Da ist es wichtig, eine offene Fehlerkultur zu etablieren, mit Open Materials, kollaborativen Projekten usw.

Ist Replizierbarkeit auch Thema bei Ihren Studierenden?

Schneck: Ja, im finalen Forschungspraktikum des Masterprogramms am Institut für Soziologie sollen die Studierenden eine Studie gut und fundiert replizieren.

Gollwitzer: Bei uns hat die Replikationsthematik einen hohen Stellenwert im Studium. Das hat auch damit zu tun, dass in München viele Forschende, die 2015 schon hier waren, sich bei der Frage, wie schlimm das Replikationsproblem ist und was wir dagegen tun können, sehr engagiert haben. Deswegen ist München in der Psychologie eine Vorreiterinstitution.

Wir haben an verschiedenen Stellen im Bachelorstudium kleinere empirische Projekte, bei denen Studierende in Kleingruppen eine eigene Fragestellung von der Planung der Studie bis hin zur Auswertung durchführen. Wir achten schon seit Jahren darauf, dass diese nach allen aktuellen Standards von Offenheit und Transparenz passieren. Analysen werden präregistriert, die Daten werden öffentlich verfügbar gemacht, es gibt ein Codebuch. Inzwischen gibt es sogar Codechecking, wo Studierende gegenseitig ihre Analysecodes überprüfen. Wir versuchen diese gelebte Fehlerkultur also bereits sehr stark im Bachelorstudium einzuführen und mehr und mehr Universitäten ziehen inzwischen nach.

Prof. Mario Gollwitzer sitzt an einem Tisch und blickt in die Kamera

Prof. Mario Gollwitzer

koordiniert das DFG-Schwerpunktprogramm META-REP. | © LMU/Stephan Höck

Was kann man Lesenden von Wissenschaftsnews mitgeben?

Gollwitzer: Man sollte Konsumentinnen und Konsumenten von Wissensnachrichten dafür sensibilisieren, wie Wissenschaft funktioniert und dass sie selten absolute Beweise liefert.

Ich glaube aber, die Verantwortung für eine kritische Rezeption wissenschaftsbezogener Inhalte trifft sie am wenigsten. Da sind es meiner Einschätzung nach eher die Wissenschaftlerinnen und Wissenschaftler, die sich überlegen müssen, wie sie bestimmte Aussagen formulieren, wenn sie mit den Medien sprechen. Und natürlich der Journalismus selbst, der diese Aussagen verdichtet und umformuliert. Man sollte vermeiden, die Gesellschaft in eine radikale Skepsis zu drängen. Das ist keine konstruktive Haltung, denn aus Skepsis soll ja kein fundamentales Misstrauen werden.

Prof. Dr. Mario Gollwitzer ist Inhaber des Lehrstuhls für Sozialpsychologie am Department Psychologie der LMU. Gollwitzer, Jahrgang 1973, studierte Psychologie an der Universität Trier, wo er auch promoviert wurde, bevor er an die Universität Koblenz-Landau wechselte. Dort leitete er das Zentrum für Methoden, Diagnostik und Evaluation. Nach acht Jahren an der Philipps-Universität Marburg kam er 2018 an die LMU.

Dr. Andreas Schneck sitzt an einem Tisch und blickt in die Kamera

Dr. Andreas Schneck

hat 35.000 psychologische Studien überprüft. | © /LMU/Stephan Höck

Dr. Andreas Schneck ist Wissenschaftlicher Mitarbeiter am Lehrstuhl für quantitative Methoden der empirischen Sozialforschung bei Prof. Dr. Katrin Auspurg am Institut für Soziologie der LMU und Co-Principal Investigator im META-REP-Unterprojekt „Enhancing the Robustness of Observational Social Science Research by Computational Multi-Model Analyses“.

Er wurde nach einem Studium der Soziologie an der Universität Konstanz an der LMU 2019 promoviert mit einer Arbeit über wissenschaftliches Fehlverhalten.

Mehr Informationen zum Thema:

Veranstaltung:

Podiumsdiskussion am 6. Februar 2024: Wie robust muss Wissenschaft sein, damit man sie der Öffentlichkeit kommunizieren kann? Wie schafft sie es, hinreichend vorsichtig, aber trotzdem noch genügend informativ zu sein? Und in wessen Spielfeld liegt eigentlich dieser Ball, bei der Wissenschaft oder den Medien? Dazu wird es am 6. Februar 2024 in der Bayerischen Akademie der Wissenschaften eine Podiumsdiskussion geben, organisiert von dem Schwerpunktprogramm META-REP. Beteiligt sind unter anderem Wissenschaftsjournalisten, Mitarbeitende aus dem META-REP-Projekt sowie Präsidiumsmitglieder der Deutschen Forschungsgemeinschaft.

Publikation:

Andreas Schneck: Are most published research findings false? Trends in statistical power, publication selection bias, and the false discovery rate in psychology (1975–2017). In: PlosOne 2023

Projekt META-REP:

Das Projekt META-REP (A meta-scientific programme to analyse and optimise replicability in the behavioral, social and cognitive sciences) wird als Schwerpunktprogramm von der DFG gefördert und von Mario Gollwitzer an der LMU koordiniert.

Wonach suchen Sie?