Meten van uitkomsten en kosten

Nadruk op statistische significantie ter discussie

Bankmagazin © Wrangler / fotolia.com Usage: Online (20180424)

In de wetenschap is statische significantie op basis van een lage p-waarde een gebruikelijke methode om een effect te claimen. Volgens Valentin Amrhein, onderzoeker bij het Zoölogisch Instituut van de Universiteit van Basel, is deze methode te beperkt.

Het Gebruik ervan staat het wetenschappelijke proces meer in de weg staat dan dat het dit vooruit helpt. Amrhein bediscussieert het zwart-wit denken in de statistiek in PeerJ.

Niet te bevestigen

Amrhein vindt dat wetenschappers bij het bewijzen van een onderzoekshypothese te veel waarde hechten aan het aantonen van een lage p-waarde. Volgens hem zeggen p-waarden te weinig over de betrouwbaarheid van het onderzoeksresultaat. Een significant resultaat op basis van een p-waarde die kleiner is dan 0.05, is vrijwel niet te bevestigen met een tweede studie, stelt hij.

Zo zal bij een statistische power van 80 procent het resultaat van twee dezelfde studies in een derde van de gevallen totaal verschillend zijn: de ene studie toont wel een significant verschil aan, terwijl de replicatiestudie geen significant verschil aantoont. Een replicatiestudie kan volgens Amrhein niet alleen maar falen omdat het een significante verschil niet kan bevestigen. Die beoordeling is te strikt.

Cumulatief bewijs

Een betrouwbare conclusie is alleen maar te trekken op basis van cumulatief bewijs uit meerdere onafhankelijke studies, stelt hij. Maar juist deze cumulatieve kennis is onbetrouwbaar omdat onderzoek met een significant verschil in de wetenschappelijke literatuur meer aandacht en waardering krijgt dan onderzoek dat geen significant verschil vindt. Het eerste onderzoek wordt beduidend vaker gepubliceerd.

Graduele benadering

Volgens Amrhein voegt ook onderzoek met een hogere p-waarde bewijs toe. Het kan niet zonder meer worden afgedaan als waardeloos. Hij wil af van het zwart-witdenken over significantie en wil meer naar een graduele benadering op basis van bredere informatie, zoals het vergelijken van intervallen rondom een gemiddelde. Hij bediscussieert in het artikel in PeerJ argumenten voor en tegen de afschaffing van strikte grenzen voor significatie.

Naar het artikel

 

Reacties