idw - Informationsdienst
Wissenschaft
Eine groß angelegte Studie zeigt: Wenn Hunderte von Forschern dieselben Daten neu analysieren, kommen sie oft zu unterschiedlichen Ergebnissen. Daran beteiligt waren auch zwei Wissenschaftler der Universität Würzburg.
Vor gut zehn Jahren hat die sogenannte Reproduzierbarkeitskrise in der Wissenschaft für heftige Debatten gesorgt. Groß war damals die Sorge, dass damit das Vertrauen der Öffentlichkeit in die Wissenschaft erschüttert werden könnte. Was war geschehen? 2015 hatte das Reproducibility Project: Psychology die Ergebnisse einer großangelegten Untersuchung veröffentlicht. Die beteiligten Wissenschaftlerinnen und Wissenschaftler hatten versucht, 100 Studien aus der Psychologie zu wiederholen – mit dem Ergebnis, dass nur etwa ein Drittel der Resultate bestätigt werden konnte.
Seitdem haben die Sozial- und Verhaltenswissenschaften erhebliche Reformen durchlaufen mit dem Ziel, die Forschung transparenter, strenger und zuverlässiger zu machen. Maßnahmen wie eine Vorab-Registrierung, Replikationsstudien und die Überprüfungen der analytischen Reproduzierbarkeit sollen dazu beitragen, die Häufigkeit von Zufallsbefunden und verzerrten Ergebnissen zu verringern. Eine wichtige Frage hat jedoch relativ wenig Beachtung gefunden: Inwieweit hängen Forschungsergebnisse von der spezifischen Art und Weise ab, wie Daten analysiert werden?
Analytische Robustheit unter der Lupe
Dieser Frage ist jetzt ein internationales Forschungsteam nachgegangen. Seine in der Fachzeitschrift Nature veröffentlichte Studie „Investigating the analytical robustness of the social and behavioral sciences“ kommt zu dem Ergebnis, dass wissenschaftliche Schlussfolgerungen je nachdem, wer welche Analyse durchführt, stark variieren können. Daran beteiligt waren auch zwei Wissenschaftler der Universität Würzburg: Dr. Martin Weiß (Lehrstuhl für Psychologie I - Klinische Psychologie und Psychotherapie) und Dr. Marcel Schreiner (Lehrstuhl für Psychologie III - Cognition & Behavior).
„In der gängigen wissenschaftlichen Praxis wird ein Datensatz in der Regel von einem einzelnen Forscher oder einem Forschungsteam analysiert, und die daraus resultierende Veröffentlichung präsentiert das Ergebnis eines bestimmten Analysepfades“, erklärt Martin Weiß den Hintergrund der Studie. Zwar bewerten Gutachter vor der Veröffentlichung die methodische Akzeptanz, doch dabei spiele es selten eine Rolle, welche Ergebnisse sich bei alternativen, aber ebenso vertretbaren statistischen Entscheidungen ergeben hätten.
„Empirische Forschung beinhaltet jedoch zahlreiche Entscheidungspunkte: wie Daten bereinigt werden, wie Variablen definiert werden, welche statistischen Modelle oder Software verwendet werden und wie Ergebnisse interpretiert werden“, ergänzt Marcel Schreiner. Zusammen bilden diese Entscheidungen das, was als analytische Variabilität bekannt ist – die Flexibilität, die die endgültigen Schlussfolgerungen grundlegend beeinflussen kann.
Mehr als 500 unabhängige Re-Analysen
Um das Ausmaß der analytischen Variabilität objektiv zu erfassen, organisierte das Team eine internationale Crowd-Initiative. Dabei wurden nach dem Zufallsprinzip100 Studien aus den Sozial- und Verhaltenswissenschaften ausgewählt, die im Zeitraum von 2009 bis 2018 erschienen waren. Insgesamt 457 Wissenschaftlerinnen und Wissenschaftler beteiligten sich an dem Projekt und führten 504 unabhängige Re-Analysen durch. Sie alle erhielten denselben Datensatz und dieselbe zentrale Forschungsfrage, hatten jedoch die Freiheit, die Analyse nach ihrem individuellen Ansatz durchzuführen. Ziel war es, für jede Studie die zentrale wissenschaftliche Behauptung anhand der Originaldaten erneut zu prüfen.
Das zentrale Ergebnis: Obwohl die meisten Neuanalysen die Hauptaussagen der Originalstudien weitgehend stützten, unterschieden sich Effektgrößen, statistische Schätzungen und Unsicherheitsgrade oft erheblich. Im Detail stellt sich das wie folgt dar:
Statistische Variabilität und Effektgrößen: 81 Prozent der Analysierenden nutzten unterschiedliche Verfahren und nur 34 Prozent kamen zu exakt demselben statistischen Ergebnis, verglichen mit der Originalpublikation. Dabei fiel die durchschnittliche Effektgröße in den Re-Analysen deutlich geringer aus als in den Originalstudien.
Wissenschaftliche Schlussfolgerungen: Trotz dieser numerischen Abweichungen bestätigten 74 Prozent der Re-Analysen die ursprüngliche Kernaussage, während 24 Prozent keine eindeutigen Effekte fanden und 2 Prozent zu einem gegenteiligen Schluss gelangten.
Einfluss des Studiendesigns: Experimentelle Studien erwiesen sich in 47 Prozent der Fälle als robust gegenüber alternativen Analysen, wohingegen dieser Wert bei Beobachtungsstudien auf 27 Prozent sank. Dies deutet darauf hin, dass komplexere Datenstrukturen eine größere analytische Flexibilität – und damit eine größere Unsicherheit – zulassen.
Einfluss der Fachkompetenz: Diskrepanzen waren nicht auf mangelnde Fachkompetenz zurückzuführen. Erfahrene Forscher mit fundierten statistischen Kenntnissen gelangten ebenso häufig zu abweichenden Ergebnissen wie andere.
Was bedeutet das nun aus Sicht der Wissenschaft?
Balázs Aczél, Professor an der Eötvös-Loránd-Universität (Budapest) und einer der Studienleiter, schlussfolgert: „Diese Ergebnisse stellen die Glaubwürdigkeit früherer Forschungen nicht in Frage. Vielmehr lenken sie die Aufmerksamkeit auf die Tatsache, dass die Darstellung einer einzigen Analyse oft nicht den tatsächlichen Grad der empirischen Unsicherheit widerspiegelt und dass das Ignorieren analytischer Variabilität zu ungerechtfertigtem Vertrauen in wissenschaftliche Schlussfolgerungen führen kann.“
Barnabás Szászi, Assistenzprofessor an der Eötvös-Loránd-Universität und der Corvinus-Universität (Budapest), fügt hinzu: „Wir plädieren für eine breitere Anwendung von Multi-Analyst- und ‚Multiversum‘-Ansätzen, insbesondere bei Fragen von hoher wissenschaftlicher oder gesellschaftlicher Bedeutung. Anstatt nach einer einzigen wahren Antwort zu suchen, machen diese Ansätze sichtbar, wie stabil – oder fragil – wissenschaftliche Schlussfolgerungen tatsächlich sind.“
Durchgeführt wurde die Studie im Rahmen des von der DARPA finanzierten Programms „Systematizing Confidence in Open Research and Evidence“ (SCORE); DARPA ist die Defense Advanced Research Projects Agency, eine Behörde des US-Verteidigungsministeriums.
Dr. Martin Weiß, Lehrstuhl für Psychologie I - Klinische Psychologie und Psychotherapie
T +49 931 31-82378, martin.weiss@uni-wuerzburg.de
Dr. Marcel Schreiner, Lehrstuhl für Psychologie III,
T +49 931 31-83380, marcel.schreiner@uni-wuerzburg.de
Aczel, B., Szaszi, B., Clelland, H.T. et al. Investigating the analytical robustness of the social and behavioural sciences. Nature 652, 135–142 (2026). https://doi.org/10.1038/s41586-025-09844-9
Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler
Psychologie
überregional
Forschungsergebnisse, Wissenschaftliche Publikationen
Deutsch

Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).