| 
 | |||||||||||||||||||||||||||||||||||||
| Correlatie & Regressie met Excel. | |||||||||||||||||||||||||||||||||||||
| Soms heb 
		je te maken met twee variabelen en ben je benieuwd of er misschien een 
		verband tussen die twee bestaat. Bijvoorbeeld of, als de ene groter 
		wordt, de andere dat ook doet. Dat kun je met Excel onderzoeken. We doen dat met een klein voorbeeld: De cijfers die een groep van 10 leerlingen hebben gehaald op hun proefwerk Wiskunde en op hun proefwerk Natuurkunde. Dat zijn deze cijfers: | |||||||||||||||||||||||||||||||||||||
| 
 | |||||||||||||||||||||||||||||||||||||
| Laten we eerst in Excel een spreidingsdiagram maken, waarbij de wiskundecijfers op de x-as staan en de natuurkundecijfers op de y-as: | |||||||||||||||||||||||||||||||||||||
|  | |||||||||||||||||||||||||||||||||||||
| Je ziet in het spreidingsdiagram een beetje een soort van stijgende lijn. Dat zou betekenen dat een hoger wiskundecijfer "een beetje" hoort bij ook een hoger natuurkundecijfer. Er is een "soort van" verband tussen de cijfers. | |||||||||||||||||||||||||||||||||||||
| Correlatiecoëfficiënt. | |||||||||||||||||||||||||||||||||||||
| Gelukkig 
		kan Excel voor ons bepalen hoe goed het verband tussen beide variabelen 
		is, door een getal r  te berekenen dat de 
		correlatiecoëfficiënt heet. Dat getal r varieert van -1 tot 1, en het betekent: | |||||||||||||||||||||||||||||||||||||
| 
 | |||||||||||||||||||||||||||||||||||||
| Hoe 
		dichter r bij 1 of -1 ligt, des te sterker is het verband  (de 
		"correlatie") tussen de twee variabelen. Dus r = 0,9 betekent een sterkere correlatie (stijgend) dan r = 0,8. En r = -0,5 betekent een zwakkere correlatie (dalend) dan r = -0,7 Je (of eigenlijk Excel natuurlijk) berekent r als volgt: | |||||||||||||||||||||||||||||||||||||
| • | Kies achtereenvolgens: Formules → Meer functies → Statistisch → Correlatie | ||||||||||||||||||||||||||||||||||||
| • | Voer nu bij matrix1 de cellen van de x-variabele in (in ons geval B2:B11) en bij matrix2 de cellen van de y-variabele (in ons geval C2:C11) | ||||||||||||||||||||||||||||||||||||
| • | 
		 | ||||||||||||||||||||||||||||||||||||
| Druk op OK 
		en je vindt de correlatiecoëfficiënt  r = 0,578... Dat betekent dat er een beetje een stijgende lijn is tussen x en y (want r is positief), maar niet super goed, want r is niet dicht bij 1. Een beetje een licht stijgend effect tussen beide variabelen dus. Het kan overigens ook in één keer door in de cel de formule =correlatie(B2 : B11 ; C2 : C11) in te voeren (dubbele-punt tussen de cellen, punt-komma tussen de twee matrices) | |||||||||||||||||||||||||||||||||||||
| 
 | |||||||||||||||||||||||||||||||||||||
| Excel kan zelfs voor ons berekenen welke rechte lijn het best past bij onze meetpunten. Die lijn heet de regressielijn, en de a en b daarvan (jeweetwel, die van y = ax + b) bereken je als volgt (merk op dat je de cellen op dezelfde manier invult als hierboven, eerst de y, dan de x): | |||||||||||||||||||||||||||||||||||||
| 
 | |||||||||||||||||||||||||||||||||||||
| Probeer 
		het maar:  dat geeft a  = 0,4942...  en  b = 3,1966... De beste lijn bij deze meetpunten is dus de lijn y = 0,4842x + 3,1966 Kijk maar, lijkt aardig te kloppen toch? | |||||||||||||||||||||||||||||||||||||
| 
		 | |||||||||||||||||||||||||||||||||||||
| 
 | |||||||||||||||||||||||||||||||||||||
| Als je 
		vermoedt (of wilt onderzoeken) of exponentiële groei misschien beter bij 
		de meetwaarden past, dan ga je dus op zoek naar een formule van de 
		vorm   y = B ·  gx Als je dan alle y-waarden vervangt door log(y) en alle x-waarden door log(x) dan kun je op die nieuwe tabel weer gewoon correlatie en regressie als hierboven toepassen. Je vindt dan een r en een a en een b Bedenk alleen wel dat voor je formule geldt: g = 10a en B = 10b Met bovenstaand voorbeeld geeft dat: | |||||||||||||||||||||||||||||||||||||
| 
		 | |||||||||||||||||||||||||||||||||||||
| 
 | |||||||||||||||||||||||||||||||||||||
| © h.hofstede (h.hofstede@hogeland.nl) | |||||||||||||||||||||||||||||||||||||