|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Correlatie en causaliteit | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| We eindigden de
vorige les met de puntenwolk hiernaast waarin op de x-as het IQ
van een moeder staat en op de y-as het IQ van haar dochter. De vraag was "Is er een verband tussen beide IQ's"? Zo'n verband noemen we een correlatie. Het antwoord op al deze vragen is: dat hangt af van de vorm van de puntenwolk. Laten we een paar mogelijke puntenwolk-vormen bekijken: |
![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Bij al deze figuren is op het oog
zo goed mogelijk een rechte lijn getekend. Die lijn, die het beste past
bij de puntenwolk, heet de regressielijn. Twee dingen vallen verder op: |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 1. | We spreken van negatieve correlatie als de vorm ongeveer dalend is, en van positieve correlatie als de vorm ongeveer stijgend is. Dat klinkt logisch, immers als de grafiek daalt, dan neemt y af als x toeneemt. En als een toename van de ene grootheid een afname van de andere betekent, dan beïnvloeden ze elkaar "negatief". A en B hierboven horen bij positieve correlatie, D en E bij negatieve correlatie. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2. | Hoe meer de puntenwolk op een rechte lijn lijkt, des te sterker is de correlatie. Als de punten exact op een rechte lijn liggen (zoals bijna bij D) heet de correlatie volkomen. Als de punten "willekeurig" verspreid liggen (zoals bij C) is er geen correlatie. Merk nog op dat we ook bij F spreken van geen correlatie: de y-waarden variëren helemaal niet, en lijken dus onafhankelijk van de x-waarden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Correlatie op de GR. Je GR kan van een tabel berekenen of er correlatie is tussen de twee variabelen en ook aan geven hoe groot die correlatie is. Dat gaat als volgt. Neem de volgende tabel met daarin de huiswerktijd die een leerling heeft besteed (minuten per dag) en het wiskundecijfer dat zij heeft gehaald. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| In de grafiek
hiernaast vermoed je dat er sprake is van een lichte positieve
correlatie. Je GR berekent dat zó. Zet de punten in de lijsten van je GR, via STAT - EDIT. (huiswerktijd in L1, wiskundecijfer in L2). Zet vervolgens bij MODE - STATDIAGNOSTICS: ON STAT - CALC - 4: LinReg(ax + b) en dan Xlist: L1, Ylist: L2 Calculate |
![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Je GR geeft dan de
formule van de beste lijn die ongeveer door deze punten gaat (in
dit geval y= 0,057x + 4,22) Maar er staat een een getal r = 0,8081...... dat is de correlatiecoëfficiënt. Dat is een getal tussen -1 en 1 dat aangeeft hoe goed de correlatie is. r = 1 betekent perfecte positieve correlatie, r = -1 betekent perfecte negatieve correlatie r = 0 beteken geen correlatie. De gevonden r = 0,808 betekent dus: redelijk goede positieve correlatie. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Causaliteit. Bedenk goed dat de correlatie aangeeft of er een wiskundig verband is. Dat betekent niet dat er ook een oorzakelijk verband is. "Oorzakelijk verband" wil zeggen dat de ene variabele oorzaak is en de andere tot gevolg heeft. De superveilige stap van "er is een correlatie" naar de zeer riskante bewering "er is een causaal verband" is een stap van de wiskunde naar niet-wiskunde, en daarmee erg onbetrouwbaar en gevaarlijk om te maken. Glad ijs!!! Twee veel gemaakte fouten: FOUT 1: Wat is eigenlijk de oorzaak en wat het gevolg? Stel dat je een
onderzoek hebt gedaan over hoeveel koffie iemand drinkt en hoe vaak
hij/zij seks heeft. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
FOUT 2: De derde factor. Stel je voor dat medische onderzoekers een aantal jaren lang bij een grote groep mensen over het hele land verspreid bekijken hoeveel gevallen van polio er zijn in een bepaalde periode, en dat in een grafiek uitzetten tegen de hoeveelheid frisdank die men gemiddeld per dag in die periode dronk. Dat gaf de volgende tabel |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Een grafiek ervan
staat in de puntenwolk hiernaast. Wie hier niet de duidelijk stijgende tendens ziet is blind natuurlijk! De conclusie is overduidelijk: hoe meer frisdrank men gebruikt, des te meer gevallen van polio. Laten we er maar meteen een verontrustende krantenkop tegenaan gooien: |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
FRISDRANK VERHOOGT KANS OP POLIO! |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| (Als je het bovenstaande hebt gelezen, kon de conclusie kon net zo goed zijn "Van polio krijg je dorst" natuurlijk, maar daar letten we even niet op. Er is een veel sterker effect gaande....) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Ondanks de duidelijk stijgende puntenwolk slaat deze conclusie
toch helemaal nergens op, en dat komt door de aanwezigheid van een
zogenaamde "derde factor". Laten we de tabel hierboven aanvullen met een derde rij die de gemiddelde temperatuur in de meetperiode weergeeft: |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Grafieken van P - T en van F - T zien er zó uit: | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| Wat blijkt: zowel F als P hebben een positieve correlatie met T. Dat is vast te verklaren: als het warm is drinken de mensen meer frisdrank, en als het warm is zal de polio-bacterie zich sneller vermenigvuldigen. F en P hebben dus met elkaar niets te maken; kijk maar naar de volgende grafiekjes van F tegen P bij bepaalde vaste temperatuur (uit dezelfde gegevens): | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Van die stijgende tendens is niets meer over. Maar ja, .....wat zijn ALLE....? Het is om paranoïde van te worden! Kunnen we ooit nog wel een conclusie over causaliteit trekken? |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| OPGAVEN. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 1. | Hieronder staat een tabel voor de hoeveelheid vet, vezels en calorieën voor 100 gram van een aantal voedingsmiddelen (bron: calorielijst.nl). | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| a. | Maak hiervan twee puntenwolken,
eentje met op de x-as de koolhydraten en op de y-as
de calorieën, en een tweede met op de x-as het vet en op
de y-as de calorieën. Probeer uit deze puntenwolken te halen welke twee variabelen vertonen de grootste correlatie? |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| b. | Kijk of je antwoord op vraag a) klopt door van beide puntenwolken de correlatiecoëfficiënt r met je GR te berekenen. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 2. | Wat zou een derde factor kunnen zijn in de volgende gevonden correlaties? | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| a. | De woordenschat en schoenmaat van middelbare school leerlingen vertonen een sterk positieve correlatie. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| b. | Er is een negatieve correlatie tussen de hoogte waarop een schaatsbaan ligt en de gereden baanrecords. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| c. | Er is een positieve correlatie tussen hoeveel restaurants iemand bezoekt en hoeveel schilderijen hij koopt. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| d. | Er is een negatieve correlatie te vinden tussen de verkoop van tulpenbollen en van zwembroeken. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 3. | Hieronder zie je zeven krantenkoppen
(uit de vorige les) naar aanleiding van gevonden grote correlatiecoëfficiënten.
Welke conclusies zouden in deze gevallen wiskundig net zo goed gerechtvaardigd zijn? |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| 4. | De volgende tabel geeft voor zeven dagen de hoogst gemeten temperatuur (T in ºC) op die dag en het aantal uren (u) zon. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| a. | Bereken de correlatiecoëfficiënt van deze gegevens. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| b. | Geef een mogelijke verklaring voor je resultaat. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
© h.hofstede (h.hofstede@hogeland.nl) |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||