Vertrauenskrise der Statistik? Forscher fordern Paradigmenwechsel

idw-News App:

04.06.2019 10:10

Vertrauenskrise der Statistik? Forscher fordern Paradigmenwechsel

Tom Leonhardt Pressestelle
Martin-Luther-Universität Halle-Wittenberg

Forschungsergebnisse sollen verlässlich und objektiv sein. Doch ab wann gilt das? Darüber streiten nicht nur Philosophen, sondern zum Beispiel auch Psychologen, Mediziner und Ökonomen. In den vergangenen 80 Jahren galten der p-Wert und die sogenannte statistische Signifikanz als Goldstandard zur Beurteilung der Glaubwürdigkeit von Forschungsergebnissen. Das Problem: Der p-Wert eignet sich gar nicht dafür, zu bewerten, ob eine wissenschaftliche Hypothese wahr oder ob ein Ergebnis wichtig ist. Ein Forscherteam der Martin-Luther-Universität Halle-Wittenberg (MLU) präsentiert im "Journal of Economics and Statistics" 20 Vorschläge, wie Forscher mit diesem Problem besser umgehen könnten.

Ein wichtiger Teil der Forschung ist es, Hypothesen durch die Analyse von Daten aus Zufallsstichproben oder Experimenten zu überprüfen. Das können zum Beispiel Annahmen über das menschliche Verhalten oder die Nebenwirkungen neuer Medikamente sein. Eine entscheidende Frage ist, ob die Hypothesen durch die Daten bestätigt werden oder nicht. Außerdem sind Wissenschaftler daran interessiert, ob sich die Befunde aus Zufallsstichproben und Experimenten auch auf die Grundgesamtheit übertragen, also verallgemeinern lassen. Seit etwa 80 Jahren wird hierfür in vielen Disziplinen der sogenannte p-Wert als statistisches Hilfsmittel eingesetzt. Mit ihm lässt sich zwar nicht direkt bestimmen, ob Ergebnisse korrekt oder wichtig sind. Er ist vielmehr ein indirektes Hilfsmittel: Er gibt an, wie kompatibel die Daten aus einer Stichprobe mit der Annahme sind, dass in der Grundgesamtheit kein Effekt vorliegt. Liegt der p-Wert unter 0,05, spricht man konventioneller Weise davon, dass ein Ergebnis "statistisch signifikant" ist.

Dieser viel gebrauchte Begriff ist irreführend: Ein "statistisch signifikantes" Ergebnis wird häufig damit gleichgesetzt, dass das Ergebnis wissenschaftlich gesichert und wichtig ist. Das ist aber falsch: "Nur weil ein in einer Stichprobe gefundener Effekt statistisch signifikant ist, heißt das nicht, dass er in der Grundgesamtheit vorhanden ist oder dass er groß oder wichtig ist", sagt die Statistikerin Prof. Dr. Claudia Becker von der MLU. Auch der Umkehrschluss gelte nicht: Nur weil ein Ergebnis nicht statistisch signifikant ist, heiße das nicht, dass es keinen Effekt gibt. Laut Agrarökonom Prof. Dr. Norbert Hirschauer ist es "eine überkommene Denkweise, dass man Forschungsergebnisse trennscharf in signifikant und nicht signifikant unterteilen kann." Genau das passiere jedoch sehr häufig. Deshalb gebe es einerseits viele Studien, die fälschlicherweise behaupten, dass es einen bestimmten Effekt nachweislich nicht gibt. Andererseits gebe es auch Studien, die Effekte behaupten, die sich in anderen Stichproben nicht reproduzieren lassen. Zuletzt war deshalb in den Medien sogar von einer Replikationskrise die Rede. Was wie eine theoretische Fachdiskussion wirkt, hat aber ganz praktische Konsequenzen: Die statistische Signifikanz ist zum Beispiel bei der Bewertung der Nebenwirkungen neuer Medikamente oder der Schäden durch Pflanzenschutzmittel ein Kriterium dafür, ob diese zugelassen werden oder nicht.

Vor dem Hintergrund dieser weit verbreiteten Fehlinterpretationen wurde kürzlich in der Fachzeitschrift "Nature" ein von 850 Forscherinnen und Forschern unterstützter Aufruf veröffentlicht, der für eine Abschaffung statistischer Signifikanztests plädiert. Allerdings fehlt es bislang an konkreten Alternativen für die angewandte Forschung in verschiedenen Disziplinen. Hier setzt der Diskussionsbeitrag der Forscher der Uni Halle an, den sie gemeinsam mit einem Göttinger Kollegen erarbeitet haben: Sie unterbreiten 20 Vorschläge, wie sich typische Fehler bei der Interpretation des p-Werts vermeiden lassen. Sie plädieren zum Beispiel dafür, die Hypothesen und Forschungsmethoden vorab festzuhalten. So könnten diese nicht nachträglich angepasst werden, um einen möglichst "signifikanten" p-Wert zu erzielen. Generell sollte der p-Wert deutlich seltener und dafür andere statistische Hilfsmittel häufiger genutzt werden. Nicht zuletzt müssten sich sowohl die Wissenschaftsgemeinde als auch die Öffentlichkeit daran gewöhnen, mit mehr Unsicherheit umzugehen und den Wissensgewinn von Studie zu Studie als langsamen Prozess zu verstehen, sagt das Autorenteam. Die Vorschläge richten sich vor allem an Ökonomen, lassen sich den Autoren zufolge aber auch auf andere Disziplinen übertragen.

Originalpublikation:

Hirschauer N., Grüner S., Mußhoff O., Becker C. Twenty Steps Towards an Adequate Inferential Interpretation of p-Values in Econometrics. Journal of Economics and Statistics (2019). doi: 10.1515/jbnst-2018-0069

Bilder

Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler
fachunabhängig
überregional
Forschungsergebnisse
Deutsch

idw-News App:

Vertrauenskrise der Statistik? Forscher fordern Paradigmenwechsel

Tom Leonhardt Pressestelle Martin-Luther-Universität Halle-Wittenberg

Originalpublikation:

Erweiterte Suche

Umfang der Suche

Datum der Veröffentlichung

Hilfe

Die Suche / Erweiterte Suche im idw-Archiv

Verknüpfungen

Klammern

Wortgruppen

Auswahlkriterien

Tom Leonhardt Pressestelle
Martin-Luther-Universität Halle-Wittenberg