Statistiek valkuil #3: Correlatie vs. Causatie

data, causatie, correlatie, valkuilen, datatips, datainterpretatie

Er zijn veel argumenten om je beslissingen te laten leiden door data. “Cijfers liegen niet” wordt er vaak geroepen. Op het eerste gezicht is dat helemaal waar. Data is een onpartijdige weergave van de realiteit en een goede toets voor aannames en onderbuikgevoelens. Helaas is het niet altijd even makkelijk om data op de juiste manier te interpreteren. Niet voor niets wordt op Universiteiten in Nederland bijna zonder uitzondering een deel van het curriculum gevuld met statistiek lessen. Wie werkt met data loopt kans om in een van de vele valkuilen te trappen. In deze serie blogs zullen we een aantal veel voorkomende valkuilen uitleggen en geven we je ook concrete tips om ze te omzeilen. In dit derde blog van deze serie bespreken we ‘Correlatie vs. Causatie’.  

Waarom een verband vinden niet het einde maar het begin is van onderzoek:

Je kent het wel, het ene moment wordt er een onderzoek gepubliceerd dat een glas rode wijn per dag goed is voor je gezondheid en de volgende dag volgt er een onderzoeksresultaat die dit gelijk tegenspreekt. Het lijkt heel vaak te gebeuren dat er een verband gevonden wordt in een voedsel onderzoek wat later toch niet waar blijkt te zijn. Hoe komt dat toch? Het antwoord is dat ook veel wetenschappelijke onderzoekers met enige regelmaat in een van de grootste statistieke valkuilen trappen die er is: een correlatie tussen 2 factoren is niet het zelfde als een causaal verband.

Wat is de betekenis van correlatie en causatie?

Voor wie nu met zijn oren staat te klapperen, wees gerust, we gaan dit stap voor stap uitleggen. Allereerst moeten we kijken naar wat die twee fenomenen betekenen. Een correlatie betekent eenvoudig gezegd dat we van 2 fenomenen die we onderzoeken kan worden gezegd dat ze vaak tegelijkertijd of in de zelfde mate voorkomen. Een bekend voorbeeld is de constatering dat wanneer het aantal ijsjes dat wordt verkocht omhoog gaat er ook evenredig meer mensen om het leven komen door verdrinking.

Er bestaat in dat geval een positieve correlatie tussen het fenomeen “aantal verkochte ijsjes” en “aantal verdrinkingsdoden”. Andersom is het bij een negatieve correlatie zo dat als het ene fenomeen stijgt, het andere fenomeen daalt. Zodra er sprake is van een correlatie tussen twee fenomenen is de volgende vraag meestal of het ene fenomeen misschien de oorzaak is van het andere fenomeen, met andere woorden: bestaat er een causaal verband.

Kijken we naar ons voorbeeld met de verkochte ijsjes en het aantal verdrinkingsdoden, dan lijkt het niet reëel dat ijsjes verdrinkingen veroorzaken. Ook klinkt het niet logisch dat mensen meer ijsjes gaan kopen als ze anderen zien verdrinken. In dit voorbeeld is er stiekem sprake van een derde fenomeen die we niet hebben meegenomen in ons “onderzoek”: het weer. Hoe warmer het weer is, hoe meer ijsjes er worden verkocht omdat mensen verkoeling zoeken. Evenzo gaan er meer mensen zwemmen en hoe meer mensen er zwemmen hoe groter de kans is dat dit ook mis gaat.

Causaal verband

Voor een goed onderzoek is een correlatie tussen twee fenomenen dan ook slechts een startpunt. Zie je dat twee effecten gecorreleerd zijn dan is de volgende stap om te achterhalen of er ook een causaal verband bestaat. Pas dan weet je namelijk ook of het verminderen van fenomeen A effect gaat hebben op fenomeen B. Je kunt op basis van ons ijsjes onderzoek besluiten om alle ijsverkoop te verbieden in de hoop het aantal verdrinkingen te verminderen, maar je zult waarschijnlijk al snel zien dat dat niet echt helpt.

Er zijn helaas veel voorbeelden waarbij een correlatie wordt verward met een causaal verband. Het lastige is dat er best veel fenomenen zijn die makkelijk aan elkaar gecorreleerd kunnen worden. Zo makkelijk zelfs dat er websites bestaan waarmee je zelf de meest bizarre correlaties kunt samenstellen op basis van echte data, zoals deze site van auteur Tyler Vigen ook een boek vol heeft geschreven van grafieken zoals deze:

data, correlatie, causatie, valkuilen, datatips, datainterpretatie

Een ander klassiek voorbeeld van een correlatie die heel vaak voorkomt is het feit dat heel veel geografische data sterk gecorreleerd is met de bevolkingsdichtheid. In onderstaand fragment laat komiek John Oliver zien hoe dergelijke correlaties gebruikt worden als basis voor bijvoorbeeld de “5G conspiracy”, die claimt dat de uitrol van het 5G netwerk de oorzaak zou zijn van Corona besmettingen. Het argument is daarin dat de 5G torens op de zelfde plekken lijken te staan als de plaatsen waar het virus zich snel verspreid. De onderliggende oorzaak is dat het virus zich makkelijker verspreid in dichtbevolkte gebieden en dat nou net ook de locaties zijn die aantrekkelijk zijn voor de uitrol van nieuwe infrastructuur.

Een correlatie tussen twee feiten kan dus het gevolg zijn van een causaal verband tussen die twee variabelen of een gemeenschappelijke derde oorzaak hebben, maar het kan ook voorkomen dat het puur toeval is dat twee zaken met elkaar gecorreleerd lijken. Simpel gezegd zijn er dingen die stijgen en dingen die dalen, dus afhankelijk van het bereik van je data zijn er altijd wel fenomenen te vinden die samenhangen met het geen je onderzoekt. Dit is dan ook het antwoord op de vraag die we aan het begin van dit blog stelden over waarom er zoveel tegenstrijdig voedselonderzoek is. Vaak blijkt bij dergelijke onderzoeken het bereik (ofwel de “scope”) van het onderzoek te klein. Al in 2005 publiceerde onderzoeker John P. A. Ioannidis een onderzoek waarin hij constateerde dat de meeste gepubliceerde onderzoeken claims maken die niet waar zijn. Hij geeft in zijn paper gelukkig ook een paar richtlijnen om te voorkomen dat je zelf in de valkuil trapt. Volgens Ioannidis heeft een betrouwbaar onderzoek de volgende kenmerken:

  • Het onderzoek heeft een grote steekproef en is zo breed mogelijk (dus bijvoorbeeld “ijsverkoop” versus “verkoop van raket waterijsjes in Delft”).
  • Aanpassingen in de oorzaak variabele heeft een grote weerslag op de gevolg variabele.
  • Er is zo min mogelijk geselecteerd en gediscrimineerd in relaties tussen de twee factoren.
  • Het causaal verband is bestand tegen verschillende onderzoeksmethoden.
  • Het onderzoek is zo onafhankelijk mogelijk (niet alleen financieel, maar bijvoorbeeld ook in relatie tot populariteit of het gemak waarmee het gepubliceerd kan worden).

Naast de bovenstaande kenmerken geven we je ook graag nog een paar tips mee waarmee je jouw eigen analyses beter bestand kunt maken tegen de valkuil:

  • Probeer zelf een logische verklaring te bedenken waarom twee feiten aan elkaar gerelateerd zouden kunnen zijn. Vaak moet je bij dat proces al een of twee aannames doen die je kunt testen.
  • Denk je inderdaad een causaal verband gevonden te hebben dan kun je deze testen. Probeer te voorspellen wat er gaat gebeuren als je een aanpassing maakt in de veroorzakende factor en voer daarna pas een experiment uit.
  • Zonder bewezen causaal verband is het gevaarlijk om je beslissing te laten leiden door een correlatie. Blijf kritisch en voorkom dure aanpassingen zonder effect.

 

Meer statistiek valkuilen?

Wil je meer blogs lezen uit deze serie? Schrijf je dan hieronder in voor de nieuwsbrief of volg ons op LinkedIn om op de hoogte te blijven.

 

Lennaert van den Brink, E-mergo,

Geschreven door Lennaert van den Brink
Senior Consultant